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序 


计算 机 行业 正在 改变 我 们 的 社会 ， 正 如 物理 学 和 化 学 在 前 两 个 世纪 给 社会 市 来 
的 巨大 改变 一 样 。 的 确 ， 数 字 技 术 几 乎 影响 甚至 颠 窗 了 我 们 生活 的 方方面面 。 签 于 
计算 机 行业 对 现代 社会 的 重要 性 ， 人们 对 让 这 一 切 成 为 可 能 的 基本 概念 却 知 之 其 
少 ， 这 显得 有 避 目 相 矛 盾 。 对 这 些 概念 的 研究 是 计算 机 科学 的 核心 ， 而 这 本 麦 考 密 
克 的 新 书 则 是 向 大 众 展示 这 些 概念 的 少数 书籍 之 一 。 


人 们 较 少 视 计 算 机 科学 为 一 门 学 科 ， 其 中 一 个 原因 是 ， 高 中 极 少 开设 计算 机 科 
学 这 门 课程 。 虽 然 人 们 通常 认为 要 强制 开设 物理 学 和 化 学 基础 ， 但 作为 独立 学 科 的 
计算 机 科学 ， 通 常 只 有 在 大 学 阶段 才 开设 此 课程 。 况 且 ， 学 校 讲授 的 “计算 
机 ”或 “信息 与 通信 技术 ”知识 ， 通 常 只 是 略 高 于 使 用 软件 的 技能 训练 。 因 此 ， 学 
生 们 认为 计算 机 学 科 枯 燥 也 并 不 意外 ，; 而 他 们 在 娱乐 和 通信 上 使 用 计算 机 技术 的 天 
然 扑 情 ， 也 被 创 造 这 类 近 林 缺乏 学 术 深 度 的 印象 所 减弱 。 这 些 问题 被 认为 是 导致 过 
去 16 年 大 学 计算 机 科学 专业 学 生 人 数 下 降 一 半 的 核心 原因 。 考 虑 到 数 字 技 术 对 现代 
社会 的 极度 重要 性 ， 让 人 们 重新 领略 计算 机 科学 的 奇妙 乙 处 已 经 刻不容缓 。 


2668 年 ， 我 很 荣幸 地 被 选 为 第 186 届 英国 皇家 学 院 圣诞 讲座 ( Royal 
Institution Christmas Lectures ) 的 演讲 人 ， 该 讲座 由 迈克 尔 :法 拉 第 
(Michael ”Faraday ) 于 1826 年 上 友 起 。2668 年 圣诞 讲座 的 主题 首次 涉及 计算 机 科 
学 。 在 准备 这 些 讲座 时 ， 我 化 了 很 多 时 间 来 思考 如 何 向 大 众 解释 计算 机 科学 ， 却 发 

满足 这 一 需求 的 资源 很 少 ， 几 乎 没有 关于 计算 机 科学 的 畅销 书 。 因 此 ， 我 特别 高 
兴 能 看 到 麦 考 密 克 的 这 本 新 书 。 


当 


麦 考 密 克 在 面向 大 众 介绍 计算 机 科学 的 复杂 思想 上 做 得 非常 好 。 这 其 中 许多 思 
想 极 其 新 额 ， 仅 从 这 点 上 来 看 ， 它 们 束 很 值得 关注 。 举 个 例子 : 电子 商务 的 爆炸 式 
增长 之 所 以 成 为 可 能 ， 是 因为 具备 了 能 在 互联 网 上 秘密 、 安 全 地 发 送 机 密 信息 ( 如 
信用 卡 卡号 ) 的 能 力 。 数 十 年 来 ， 建 立 在 “开放 ”通道 上 的 保密 通信 被 认为 是 一 个 
科学 难题 。 当 人 们 友 现 解决 方法 时 ， 才 友 洁 保密 通信 极度 优雅 ， 而 麦 考 密 克也 以 精 
确 的 类 比 进行 了 解释 ， 无须 读者 拥有 计算 机 科学 知识 。 这 些 优点 使 这 本 书 对 科普 读 
物 做 出 了 不 可 估量 的 贡献 ， 我 极力 推荐 本 书 。 


克 里 斯 : 毕 晓 普 ( Chris Bishop ) 
微软 剑桥 研究 院 资深 科学 家 
大 不 列 颠 皇家 学 院 副 院 长 


爱丁堡 大 学 计算 机 科学 教授 





第 一 章 
前 言 


一 一 计算 机 日 常 运用 的 卓越 思想 有 哪些 


此 乃 小 技 .…. 为 诗 之 诀 在 于 有 气 、 有 势 、 有 情 、 有 韵 、 有 起 、 有 承 、 有 转 、 有 合 . 





威廉 姆 :莎士比亚 ， 


《 爱 的 徒劳 》 ( Love’” s Labour' s Lost ) 


计算 机 科学 中 的 伟大 思想 是 如 何 诞生 的 ? 以 下 遂 选 部 分 思想 进行 介绍 : 


26 世 纪 36 年 代 ， 在 第 一 台数 字 计 算 机 友 明 以 前 ， 一 位 英国 天 才 开 创 了 计 
算 机 科学 领域 。 之 后 ， 这 位 天 才 继 续 证 明 ， 不 管 未 来 建造 的 计算 机 运行 多 快 、 
功能 多 强大 、 设 计 得 多 好 ， 仍 旧 有 一 些 问 题 是 计算 机 不 能 解决 的 。 

1948 年 ， 一 位 供职 于 电话 公司 的 科学 家 上 友 表 了 一 篇 论文 ， 开 创 了 信息 理 
论 领 域 。 这 位 科学 家 的 工作 让 计算 机 能 以 完美 的 精确 度 传输 信息 ， 即 便 大 部 分 
数据 都 因为 被 干扰 而 破坏 。 

1956 年 ， 一 群 学 者 在 达 特 茅 斯 举行 会 议 。 这 次 会 议 的 目标 很 清晰 ， 也 很 
大 胆 ， 那 就 是 开创 人 工 智能 领域 。 在 取得 了 许多 重大 成 功 以 及 经 历 了 无 数 失望 
之 后 ， 我 们 仍 期 待 出 现 一 个 真正 的 智能 计算 机 程序 。 

1969 年 ，IBM 公 司 的 一 名 研究 人 员 发 明了 一 种 将 信息 组 织 进 数据 库 中 的 
先进 方法 。 目 前 ， 绝 大 多 数 在 线 交 易 都 使 用 该 技术 存储 及 检索 信息 。 

1974 年 ， 英 国政 府 秘密 通信 实验 室 的 研究 人 员 发 明了 一 种 让 计算 机 安全 
通信 的 方法 ， 即 另 一 台 计 算 机 可 以 查看 在 计算 机 之 间 交 换 的 所 有 信息 。 这 些 研 
究 人 员 为 政府 保密 所 限 一 一 不 过 幸运 的 是 ， 三 名 美国 专家 独立 开发 并 拓展 了 这 
项 重大 发 明 ， 为 互联 网 上 所 有 的 安全 通信 打下 了 基础 。 

1996 年 ， 两 名 斯 坦 福 大 学 博士 生 决定 联手 搭建 一 个 互联 网 搜索 引 警 。 几 
年 后 ， 他 们 创办 了 谷歌 公司 一 一 互联 网 时 代 的 第 一 个 数字 巨头 。 











在 我 们 享受 21 世 纪 技 术 惊人 增长 的 同时 ， 使 用 计算 机 设备 一 一 不 管 是 现 有 最 强 
大 的 一 组 机 器 还 是 最 新 、 最 时 尚 的 手持 设备 一 一 都 不 可 避免 地 要 依赖 计算 机 科学 的 


基础 思想 ， 而 这 些 思想 都 诞生 于 26 世 纪 。 想 一 想 : 你 今天 做 过 什么 令 人 印象 深刻 的 
事情 吗 ? 好 吧 ， 这 个 问题 的 答案 取决 于 你 怎么 看 。 也 许 你 搜索 了 包含 数 十 亿 份 文档 
的 资料 库 ， 从 中 选 出 两 到 三 份 与 你 的 需求 最 相关 的 文档 ? 即便 有 能 够 影响 所 有 电子 
设备 的 电磁 干扰 ， 存 储 或 传输 了 数 百 万 条 信息 ， 也 没 犯 一 点 错误 ? 你 是 否 成 功 地 完 
成 了 一 次 在 线 交易 ， 即 便 同 时 有 成 干 上 万 名 消费 者 在 访问 同一 个 服务 器 ? 你 是 否 在 
能 够 被 其 他 数 十 台 计 算 机 嗅 探 到 的 线路 中 传输 了 一 些 机 密 信息 ( 比如 信用 卡 卡 

号 ) ? 你 是 否 运用 过 压 绾 的 魔力 ， 将 数 兆 的 照片 压缩 成 更 易于 管理 的 大 小 ， 以 便 在 
电子 邮件 中 发 送 ? 你 是 否 在 手持 设备 上 触发 了 人 工 智能 ， 自动 纠正 你 在 手持 设备 的 
小 巧 键盘 上 输入 的 内 容 ? 


这 些 令 人 印象 深刻 的 壮举 都 依赖 于 之 前 提 到 的 伟大 上 友 现 。 然 而 ， 绝 大 多 数 计算 
机 用 户 每 天 都 会 多 次 运用 这 些 独创 想法 ， 却 从 没有 意识 到 ! 本 书 划 在 面向 大 众 解 释 
这 些 概念 一 一 我 们 每 天 使 用 的 计算 机 科学 的 伟大 思想 。 在 解释 每 个 概念 时 ， 我 都 假 
设 读者 不 了 解 任何 计算 机 科学 的 任何 知识 。 


算法 : 指 尖 精灵 的 构件 


到 目前 为 止 ， 我 一 直 在 谈 计算 机 科学 的 伟大 “思想 ”， 但 计算 机 科学 家 们 将 许 
多 重要 思想 形容 为 “算法 ”。 那 么 思想 和 算法 之 间 有 什么 区 别 呢 ? 究竟 什么 是 算 


法 ?这 一 问题 最 简单 的 答案 是 ， 算 法 是 一 张 精 确 的 处 方 ， 按 顺序 详细 列 出 了 解决 一 
个 间 题 所 需要 的 具体 步骤 。 我 们 小 时 候 在 学 校 学 到 的 一 种 算法 束 是 很 好 的 例子 : 将 
两 个 大 数字 相 加 的 算法 。 如 下 例 所 示 。 这 个 算法 涉及 一 连 串 步 又， 开始 的 步骤 如 

下 : “首先 ， 将 两 个 数 的 最 未 位 数 相 加 ， 写 下 结果 的 最 未 位 数 ， 将 剩 下 的 数 放 到 | 左 
侧 的 下 一 栏 ; 接着 ， 将 下 一 栏 的 数 相 加 ， 再 将 除 结果 未 位 数 之 外 的 数字 和 前 一 栏 余 


下 的 数 相 加 .……”。 依 此 类 推 。 
| | ] 
4844978 4844978 4844978 
+37469465 +3745945 f37459945 


3 23 
将 两 个 数字 相 加 的 算法 的 前 两 步 。 
请 注意 算法 步骤 近乎 机 械 化 的 感 竞 。 事 实 上 ， 这 是 算法 的 关键 特点 之 一 : 每 一 
步 都 必须 绝对 精确 ， 没 有 任何 人 类 意图 或 推测 掺 杂 其 中 。 这 样 ， 每 一 个 完全 机 械 化 
的 步骤 才能 被 编 入 计算 机 。 算 法 的 另 一 个 重要 特点 是 ， 不管 输入 什么 ， 算 法 忌 能 运 
行 。 我 们 在 学 校 学 到 的 相 加 算法 就 拥有 这 一 特性 : 不 管 你 想 把 哪 两 个 数 相 加 ， 算 法 
最 终 都 会 得 出 正确 答案 。 比 如 ， 用 这 一 算法 将 两 个 长 达 1 6686 位 的 数 相 加 ， 你 肯定 能 


得 到 答案 ， 尽 管 这 需要 相当 长 的 时 间 。 


对 于 把 算法 定义 为 一 张 精 确 、 机 械 化 的 处 方 的 说 法 ， 你 也 许 会 略 感 好 奇 。 这 张 
处 方 究竟 要 有 多 精确 ”要 进行 哪些 基本 操作 ? 比如 ， 在 上 面 的 相 加 算法 中 ， 简 单 地 
说 一 句 “ 把 两 个 数 相 加 ”是 不 是 就 行 了 ? 还 是 说 我 们 要 在 加 法 表 上 列 出 所 有 个 位 数 
字 ? 这 些 细节 看 起 来 也 许 有 点 之 味 ， 甚 至 会 显得 有 点 学 究 气 ， 但 其 实 离 真相 不 远 
了 : 这 些 问题 的 真正 答案 正 处 于 计算 机 科学 的 核心 ， 并 且 也 和 哲学 、 物 理学 、 神 经 
科学 以 及 遗传 学 有 联系 。 有 天 算法 究竟 是 什么 的 深层 问题 都 归结 于 一 个 前 提 一 一 也 
束 是 众所周知 的 凶 奇 一 图 灵 论 题 ( Church-Turing Thesis ) 。 我 们 将 在 第 十 章 重 
温 这 些 问题 ， 届 时 我 们 还 将 讨论 计算 的 理论 极限 ， 以 及 印 奇 一 图 灵 论 题 的 一 些 方 
面 。 同 时 ， 将 算法 比 作 一 张 非常 精确 的 处 方 这 一 非 正 式 概 念 效 果 会 非常 好 。 


现在 我 们 知道 了 算法 是 什么 ， 但 算法 和 计算 机 有 什么 联系 呢 ? 关键 在 于 ， 计 算 
机 需要 用 非常 精确 的 指令 编程 。 因 此 ， 在 能 让 计算 机 为 我 们 解决 某 个 特定 问题 之 
前 ， 我 们 需要 为 那个 问题 开 友 一 个 算法 。 人 在 数学 和 物理 学 等 其 他 学 科 中 ， 重 要 的 结 
果 通 常 是 由 一 个 方程 式 获 得 的 。 ( 著名 的 例子 包括 勾 股 定理 a*+b“=c*， 或 爱 因 斯 坦 
的 质量 守恒 定理 E = mc*。 ) 相反 ， 计 算 机 科学 的 伟大 思想 通常 是 形容 如 何 解 决 一 个 
问题 一 一 当然 ， 是 使 用 一 种 算法 。 因 此 ， 本 书 的 主要 目的 是 ， 解释 让 计算 机 成 为 你 
的 个 人 精灵 的 东西 一 一 计算 机 每 天 使 用 的 伟大 算法 。 





一 个 伟大 的 算法 由 什么 构成 ? 


这 会 引出 一 个 刁钻 的 问题 : 什么 才 是 真正 伟大 的 “算法 ” ? 潜在 的 候选 算法 清 
单 相 当 大 ， 但 我 用 几 条 基本 标准 缩减 了 用 于 本 书 的 候选 算法 清单 。 第 一 条 ， 也 是 最 
重要 的 一 条 标准 是 ， 伟 大 的 算法 要 被 普通 计算 机 用 户 每 天 用 到 。 第 二 条 重要 的 标准 
是 ， 伟 大 的 算法 应 该 能 处 理 具体 的 现实 问题 ， 如 压缩 一 个 特定 文件 或 通过 一 个 噪声 
链接 精确 地 传输 文件 。 对 于 已 经 了 解 部 分 计算 机 科学 的 读者 而 言 ， 下 面 的 文字 框 解 
释 前 面 两 大 标准 的 部 分 后 果 。 


第 一 条 标准 一 一 要 被 普通 计算 机 用 户 每 天 用 到 一 一 排除 了 主要 由 计算 机 专 
业 人 士 使 用 的 算法 ， 如 编译 器 和 程序 验证 技术 。 第 二 条 标准 一 一 针对 某 个 特定 
问题 的 具体 程序 一 一 排除 了 许多 作为 计算 机 科学 本 科 课 程 核心 内 容 的 伟大 算 
法 ， 如 排序 算法 ( 快速 排序 ) 、 图 形 算 法 ( 迪 杰 斯 特 拉 最 短路 径 算法 ) 、 数 据 
结构 ( 哈 希 表 ) 。 这 些 算 法 的 伟大 性 毋庸 置疑 ， 而 且 很 轻易 地 就 满足 了 第 一 条 
标准 ， 因 为 普通 用 尸 使 用 的 绝 大 多 数 应 用 程序 都 会 反复 应 用 这 些 算法 。 但 这 些 
算法 太 通 用 了 : 它们 能 用 于 解决 众多 问题 。 在 本 书 中 ， 我 决定 要 专注 于 解决 特 





定 问题 的 算法 ， 因 为 对 于 普通 计算 机 用 户 而 言 ， 这 学 算法 能 让 他 们 拥有 更 清晰 
的 动机 。 


一 些 和 本 书 选 取 算法 有 关 的 额外 细节 。 本 书 读者 无 须 具备 计算 机 科学 的 任何 知识 。 但 如 果 读者 具备 计算 机 科学 背 
景 知 识 ， 这 个 文字 框 会 解释 为 何 这 类 读者 之 前 偏好 的 许多 内 容 没有 出 现在 本 书 中 。 

第 三 个 标准 是 ， 算 法 主要 和 计算 机 科学 理论 相关 。 这 排除 了 主要 和 计算 机 硬件 
一 一 如 CPU、 监 视 器 以 及 网 络 一 一 有 关 的 技术 。 这 条 标准 也 减轻 了 对 基础 设施 一 一 
如 互联 网 一 一 设计 的 重视 。 为 什么 我 要 着 重 于 计算 机 科学 理论 ? 部 分 原因 是 由 于 公 
众 对 计算 机 科学 认 知 的 不 平衡 : 有 一 种 广泛 的 观点 认为 ， 计 算 机 科学 基本 上 就 是 编 
程 (如 “软件 ”) 和 设备 设计 ( 如 “硬件 ” ) 。 事 实 上 ， 最 优美 的 计算 机 科学 思想 
中 有 许多 是 十 分 抽象 的 ， 并 不 属于 以 上 任意 一 类 。 我 希望 通过 着 重 于 这 些 理论 思 
想 ， 让 更 多 人 将 计算 机 科学 的 本 质 作 为 一 门 知识 学 科 来 理解 。 





你 也 许 已 经 注意 到 了 ， 我 列 出 的 标准 可 能 会 遗漏 一 些 伟大 的 算法 ， 但 却 从 一 开 
始 融 避 免 了 定义 伟大 这 个 极其 麻烦 的 问题 。 针 对 这 一 问题 ， 我 依赖 于 目 己 的 直觉 。 
在 本 书 中 说 明 的 每 一 个 算法 中 ， 其 核心 都 是 一 个 让 整 件 事情 奏效 的 精巧 把 戏 。 对 我 
而 言 ， 当 这 个 把 戏 显露 出 来 时 ， 那 个 “惊叹 ”时 刻 ， 会 让 解释 这 些 算法 成 为 令 人 夫 
悦 的 经 历 ， 我 希望 你 也 能 有 此 感受 。 因 为 我 会 用 到 “把 戏 ” (trick ) 这 个 词 很 多 
次 ， 需 要 指出 的 是 ， 我 并 非 指 那些 卑劣 或 骗 人 的 把 戏 一 一 那 种 孩子 可 能 会 用 在 弟 第 
或 妹妹 身上 的 把 戏 。 相 反 ， 本 书 中 的 把 戏 类 似 于 交易 诀 窟 或 魔 木 : 为 达成 目标 而 及 
用 的 聪明 技巧 ， 否 则 目标 很 难 或 不 可 能 达成 。 


因此 ， 根 据 直 营 ， 我 选 出 了 目 认 为 是 计算 机 科学 世界 中 最 精巧 、 最 神奇 的 把 
戏 。 在 英国 数学 家 高 德 非 哈 罗 德 -哈代 ( G. H. Hardy ) 的 《一 个 数学 家 的 辩 日 》 


(A Mathematician's Apology ) 中 ， 作 者 试图 向 公众 解释 数学 家 从 事 数 学 


的 原因 : “ 美 是 第 一 道 测试 : 丑陋 的 数学 在 这 个 世界 中 无 永存 之 地 。” 这 道 美 的 测 
试 也 适用 于 计算 机 科学 中 强 合 的 理论 思想 。 因 此 ， 选 取 在 本 书 中 出 现 的 算法 的 最 后 
一 条 标准 ， 束 是 哈代 的 一 一 也 许可 以 这 么 称呼 一 一 美的 测试 : 希望 我 至 少 能 成 功 地 
同 读者 展示 部 分 美 一 一 我 在 每 个 算法 中 感觉 到 的 美 。 


接 下 来 谈 谈 我 选择 展示 的 这 些 算法 。 搜 索引 擎 的 巨大 影响 ， 也 许 是 算法 技术 影 
响 所 有 计算 机 用 户 最 明显 的 例子 ， 我 自然 也 将 部 分 互联 网 搜索 的 核心 算法 收入 了 本 
书 中 。 第 二 章 搞 述 了 搜索 引擎 如 何 使 用 索引 寻找 与 请 求 的 文件 ， 而 第 三 章 则 解释 了 
网 页 排名 ( PageRank ) 算法 一 一 谷歌 公司 为 保证 匹配 度 最 高 的 文件 出 现在 搜索 结果 
列表 项 部 的 原始 算法 。 


即便 我 们 不 经 常 想 这 件 事情 ， 绝 大 多 数 人 也 能 意识 得 到 ， 为 提供 出 人 意料 的 强 
大 搜索 结果 ， 搜 索引 警 使 用 着 一 些 深邃 的 计算 机 科学 思想 。 相 反 ， 其 他 一 些 伟大 的 
算法 也 经 常 被 用 到 ， 但 计算 机 用 户 对 此 甚至 都 没有 意识 到 。 第 四 章 描述 的 公 钥 加 密 
(public key cryptography ) 就 是 这 样 一 种 算法 。 用 户 每 次 访问 一 个 安全 网 站 
( 地 址 以 https 而 非 http 开 头 ) ， 用 户 都 会 用 到 公 钥 加 密 的 一 个 方面 一 一 也 就 是 众 
所 周知 的 密 钥 交 换 ( key exchange ) 来 展开 一 段 安 全 对 话 。 第 四 章 解释 了 密 钥 
交换 过 程 的 实现 原理 。 





第 五 章 的 主题 是 纠 错 码 ( error correcting codes ) ， 这 是 我 们 经 单 使 用 但 
却 没有 意识 到 的 另 一 类 算法 。 事 实 上 ， 纠 错 码 极 有 可 能 是 有 史 以 来 唯一 一 个 使 用 次 
数 最 频繁 的 伟大 算法 。 纠 错 码 可 以 让 计算 机 识别 并 纠正 在 储存 或 传输 数据 中 出 现 的 
错误 ， 而 不 必 依 靠 备份 或 再 次 传输 。 纠 错 码 无 处 不 在 : 它们 被 用 于 所 有 硬盘 驱动 
器 、 众 多 网 络 传输 、CD 和 DVD， 甚 至 还 存在 于 一 些 计算 机 的 内 存 。 不 过 ， 纠 错 码 的 能 
力 太 强 了 ， 以 至 于 我 们 意识 不 到 它们 存在 。 


第 六 章 稍微 有 氮 特殊， 介绍 了 图 形 识别 算法 ( pattern recognition 
algorithm ) 。 图 形 识别 算法 也 能 进入 伟大 的 计算 机 科学 思想 榜 单 ， 但 却 违 背 了 第 
一 条 标准 : 要 被 普通 计算 机 用 户 每 天 用 到 。 图 形 识 别 属于 计算 机 识别 高 度 可 变 信息 
一 一 如 笔迹 、 讲 话 和 人 上 脸 一 一 的 技术 。 事 实 上 ， 在 21 世 纪 的 第 一 个 十 年 ， 绝 大 多 数 
日 常 计算 并 没有 用 到 这 些 技术 。 但 在 28611 年 ， 图 形 识别 的 重要 性 急剧 增 大 : 配备 小 
型 屏幕 键盘 的 移动 设备 需要 自动 纠 错 ， 平 板 设备 必须 识别 手写 输入 ， 而 且 所 有 这 些 
设备 ( 特别 是 智能 手机 ) 越 来 越 趋向 于 语音 操作 。 一 些 网 站 甚至 使 用 图 形 识别 来 决 
定向 用 户 展示 哪 种 广告 。 另 外 ， 我 对 图 形 识别 也 有 偏好 ， 因 为 它 是 我 的 研究 领域 。 
因此 ， 第 六 章 描述 了 3 种 最 有 趣 、 最 成 功 的 图 形 识别 技术 : 最 近邻 分 类 器 
(nearest-neighbor classifier ) 、 决 策 树 ( decision tree ) 以 及 神经 网 络 


( neural network ) 。 


第 七 草 讨论 了 压缩 算 去 。 压 缩 算法 组 成 了 另 一 组 使 计算 机 变 成 我 们 指 尖 精灵 的 
伟大 思想 。 计 算 机 用 户 的 确 会 时 不 时 地 直接 进行 压缩 ， 也 许 是 为 了 节省 磁盘 空间 ， 
也 许 是 为 了 缩减 照片 容量 ， 以 便 用 电子 邮件 寄 出 。 不 过 在 私 底下 ， 压 缩 使 用 的 频率 
要 更 高 : 我 们 根本 没有 意识 到 ， 我 们 的 下 载 或 上 传 也 可 以 通过 压缩 以 节省 市 宽 ， 而 
数据 中 心 通常 会 压缩 消费 者 的 数据 以 降低 成 本 。 电 子 邮 件 提供 商 提 供给 你 的 5 GB 空 
间 ， 经 压缩 后 很 有 可 能 只 占据 电子 邮件 提供 商 5 GB 空间 的 很 小 一 部 分 。 





第 八 章 讲 到 了 数据 库 中 运用 的 一 些 基 础 算法 。 这 一 章 侧重 为 实现 一 致 性 一 一 指 
一 个 数据 库 中 的 关系 不 互相 冲突 一 而 采用 的 聪明 技巧 。 没 有 这 些 精 巧 的 技术 ， 我 
们 的 绝 大 部 分 在 线 生 活 ( 包括 网 络 购物 以 及 通过 Facebook 之 类 的 社交 网 站 进行 互 
动 ) 融会 消亡 于 众多 计算 机 错误 中 。 这 一 章 解释 了 一 致 性 真正 的 问题 是 什么 ， 以 及 
计算 机 科学 家 是 如 何 解 决 这 一 问题 的 。 前 提 是 不 牺 牧 我 们 所 期 望 的 在 线 系统 拥有 的 
高 效 性 。 


在 第 九 章 ， 我 们 会 了 解 理论 计算 机 科学 无 可 争议 的 瑰宝 之 一 : 数字 签名 。 乍 看 
之 下 ， 用 数字 形式 “签署 ”一 份 电子 文档 似乎 不 可 能 。 你 也 许 会 想 ， 这 种 签名 必须 
由 数字 信息 组 成 ， 而 任何 想 要 伪造 签名 的 人 都 可 以 毫 不 费力 地 拷贝 这 些 信息 。 这 一 
悖 论 的 解决 万 案 ， 束 是 计算 机 科学 取得 的 最 令 人 瞩目 的 成 束 之 一 。 


第 十 章 采 取 了 截然 不 同 的 视角 : 与 其 摘 述 一 个 已 经 存在 的 伟大 算法 ， 我 们 不 如 
去 了 解 一 个 假如 存在 则 必然 会 伟大 的 算法 。 不 过 我 们 会 震惊 地 友 现 ， 这 个 特别 伟大 
的 算法 不 可 能 存在 。 这 表明 计算 机 解决 问题 的 能 力 存在 一 些 绝对 极限 ， 而 我 们 将 简 
单 地 从 哲学 和 生物 学 角度 探讨 这 一 结果 的 应 用 。 


第 十 一 章 我 们 会 忌 结 伟大 算法 的 一 些 共 性 ， 花 些 时 间 畅 想 未 来 会 怎样 。 会 有 更 
多 伟大 算法 出 现 吗 ? 或 者 说 ， 我 们 已 经 友 现 了 所 有 的 伟大 算法 ? 


在 此 ,不 得 不 提前 说 一 下 本 书 的 风格 。 任 何 科 普 作 品 都 必须 清楚 地 告知 来 源 ， 
但 引用 会 破坏 文本 的 流畅 性 ， 并 让 读者 产生 学 术 的 感觉 。 由 于 可 读 性 和 易 读 性 是 本 
书 的 首要 目标 ， 所 以 本 书 正文 不 会 出 现 引 用 。 不 过 ， 我 清楚 地 记录 了 所 有 来 源 ， 并 
在 本 书 末尾 的 “来 源 和 延伸 阅读 ”板块 中 列 出 ， 并 时 不 时 附 上 拓展 评论 。 这 个 板块 
还 列 出 了 一 些 额外 材料 ， 以 便 感 兴趣 的 读者 能 去 寻找 更 多 和 计算 机 科学 中 伟大 算法 
有 关 的 东西 。 


既然 提前 说 了 本 书 的 风格 ， 我 还 要 谈 谈 本 书 书 名 中 采取 的 少量 诗 化 。 本 书 无 疑 
是 革命 性 的 ， 但 真 的 有 九 种 算法 吗 ? 这 一 说 法 值得 探讨 ， 因 为 要 取决 于 有 多 少 算法 
被 算 作 单 独 算法 。 让 我 们 来 算 下 “ 九 ”是 怎么 来 的 。 除 了 前 言 和 结论 两 草 外 ， 本 书 
还 有 九 章 ， 每 一 章 都 介绍 了 对 一 种 计算 任务 产生 革命 性 影响 的 算法 ， 例 如 加 密 、 压 
缩 、 图 形 识别 。 因 此 ， 书 名 中 的 “ 九 大 算法 ”实际 上 指 的 是 处 理 这 九 种 任务 的 九 类 
算法 。 


为 什么 我 们 要 关注 这 些 伟大 的 算法 ? 


希望 对 这 些 迷 人 思想 的 快速 忌 结 能 让 你 渴望 深入 了 解 它们 的 运行 方式 。 不 过 ， 
也 许 你 仍然 在 思考 : 本 书 的 终极 目标 是 什么 ? 让 我 简短 地 襄 下 本 书 的 真正 目的 。 这 
本 书 绝 不 是 一 本 问答 式 操作 手册 。 在 读 完 本 书后 ， 你 不 会 成 为 计算 机 安全 方面 的 专 
家 ， 也 不 会 成 为 人 工 智能 或 其 他 领域 的 专家 。 你 也 许 能 学 到 一 些 有 用 的 技能 ， 这 倒 
是 真 的 。 比 如 : 你 会 对 如 何 检查 “安全 ”网 站 凭证 以 及 “已 签名 ”软件 包 了 解 更 
多 ; 你 能 针对 不 同 任务 在 有 损 和 无 损 压 缩 之 间 做 出 明智 选择 ; 而 且 通 过 理解 搜索 引 
擎 索引 和 排名 技术 的 某 些 方面 ， 你 能 更 高 效 地 使 用 搜索 引擎 。 


在 读 完 本 书后 ， 你 不 会 成 为 一 名 更 加 熟练 的 计算 机 用 户 。 但 你 会 更 加 珍视 每 天 
在 所 有 计算 设备 上 不 停 使 用 的 思想 的 美 。 


为 什么 这 是 件 好 事 ? 我 用 类 比 的 方式 来 说 明 。 我 肯定 不 是 一 位 天 文学 专家 一 一 
事实 上 ， 我 在 这 个 项 目 上 相当 无 各， 我 想 知道 更 多 。 但 每 当 我 注视 夜空 ， 我 知道 的 
少量 天 文学 知识 增强 了 我 对 这 一 经 验 的 享受 。 有 了 时， 我 对 自己 看 到 事物 的 理解 ， 让 
我 产生 了 一 种 满足 和 尺 奇 的 感觉 。 希 望 在 读 完 本 书后 ， 你 在 使 用 计算 机 时 也 能 经 党 
获得 同样 的 满足 和 尺 奇 之 感 ， 这 也 是 我 股 切 的 希望 。 你 将 真正 珍视 我 们 时 代 最 单 
见 、 最 神秘 的 黑 盒 子 : 你 的 个 人 电脑 ， 你 措 尖 的 精灵 .。 


第 二 章 
搜索 引擎 索引 
一 一 在 世界 上 最 大 的 草 埃 中 寻 针 


哈 克 ， 在 咱 俩 站 着 的 地 方 的 下 面 ， 你 拿 一 根 钓鱼 竿 就 可 以 触 到 我 钻 出 来 的 那个 洞 。 看 看 你 能 不 能 找到 。 


《汤姆 : 索 亚 历险 记 》 ( Tom Sawyer ) 


搜索 引擎 对 我 们 的 生活 产生 了 深远 影响 。 绝 大 多 数 人 每 天 都 进行 多 次 搜索 查 
询 ， 但 我 们 极 少 会 停 下 来 思考 这 个 令 人 惊叹 的 工具 是 如 何 奏 效 的。 搜索 引擎 提供 的 
海量 信息 以 及 搜索 结果 的 速度 与 质量 变 得 如 此 平常 ， 如 果 我 们 搜索 的 问题 没有 在 几 
秒 内 得 到 回答 ， 我 们 束 会 困惑 。 我 们 倾 同 于 筷 记 ， 每 一 个 成 功 的 搜索 引 掌 都 是 从 世 
界 上 最 大 的 齐 坎 一 一 万 维 网 一 一 寻 针 。 


事实 上 ， 搜 索引 警 提 供 的 超级 服务 ， 不 仅仅 是 针对 搜索 抛 出 一 大 堆 人 花哨 技术 的 
结果 。 的 确 ， 每 个 大 型 搜索 引擎 公司 都 运营 着 一 个 由 无 数 数据 中 心 组 成 的 国际 网 
络 ， 其 中 包括 数 以 干 计 的 服务 器 计算 机 和 先进 的 网 络 设 备 。 但 没有 聪明 的 算法 来 组 
织 和 检索 我 们 请 求 的 信息 ， 所 有 这 些 硬 件 都 会 变 得 富 无 用 处 。 因 此 ， 在 这 一 章 和 下 
一 章 ， 我 们 将 探究 这 样 一 些 算法 瑰宝 一 一 每 次 在 进行 网 络 搜索 时 ， 我 们 都 会 用 到 这 
些 算法 。 我 们 很 快 就 会 了 解 到 ， 搜 索引 警 的 两 大 主要 任务 就 是 匹配 ( matching ) 和 
排名 ( ranking ) 。 这 一 章 将 讲述 一 种 聪明 的 匹配 技术 : 元 词 把 戏 ( metaword 
trick ) 。 在 下 一 章 ， 我 们 将 转 而 讨论 排名 任务 ， 审 视 谷 歌 公 司 著 名 的 网 页 排名 算 
法 。 


匹配 和 排名 


当 你 发 起 一 次 网 络 搜索 查询 时 会 友 生 什么 ? 以 这 样 一 种 高 屋 建 领 的 视角 开始 会 
很 有 帮助 。 我 已 经 说 过 ， 搜 索 有 两 个 主要 阶段 : 匹配 和 排名 。 在 实际 中 ， 搜 索引 擎 
将 匹配 和 排名 组 合成 一 个 流程 以 实现 一 致 性 。 但 这 两 个 阶段 在 概念 上 是 独立 的 ， 
此 我 们 会 假设 在 排名 开始 前 ， 匹 配 已 经 完成 。 上 图 就 给 出 了 一 个 例子 ， 图 中 查询 的 
是 “London bus timetable” ( 伦敦 公共 汽车 时 刻 表 ) ， 而 匹配 阶段 则 回答 “ 哪 
个 网 页 与 我 的 查询 匹配 ”这 个 问题 一 一 在 这 个 例子 中 就 是 所 有 提 到 “London bus 





timetable” 的 网 页 。 


匹配 后 的 网 页 排名 后 的 网 页 





网 络 搜索 的 两 个 阶段 : 匹配 和 排名 。 在 第 一 阶段 ( 匹配 ) 后 可 能 会 出 现 数 干 或 数 百 万 个 匹配 结果 ， 这 些 结果 必须 
按照 相关 度 在 第 二 阶段 ( 排名 ) 进行 排序 。 


但 现实 搜索 引 掌 中 的 许多 查询 都 有 数 百 、 数 干 乃至 数 百 万 个 “命中 ”。 而 搜索 
引擎 用 户 通 常 只 喜欢 查看 几 个 结果 ， 最 多 5 个 或 16 个 。 因 此 ， 搜 索引 掌 必 须 从 大 量 命 
中 里 挑 出 最 好 的 几 个 。 一 个 好 的 搜索 引擎 不 仅仅 会 挑 出 最 好 的 几 个 命中 ， 而 且 会 以 
最 有 用 的 顺序 显示 最 I 页面 排 在 第 一 ， 然 后 是 匹配 度 排名 第 二 的 页 
面 ， 依 此 类 推 。 





以 正确 顺序 挑选 出 最 好 的 几 个 命中 被 称 为 “排名 ”。 排 名 是 关键 的 第 二 个 阶 
段 ， 其 随 最 开始 的 匹配 阶段 。 在 搜索 行业 的 残酷 世界 中 ， 搜 索引 警 的 生死 由 其 排名 
系统 的 质量 决定 。2662 和 年， 美国 前 三 大 搜索 引擎 的 市 场 份额 基本 相当 ， 合 歌 、 雅 虎 
和 MSN 在 美国 的 市 场 份额 都 在 36% 以 下 。[MSN 随 后 被 重新 包 洲 成 Live 


Search， 之 后 又 被 命 名 为 必 应 ( Bing ) 。] 之 后 几 年 ， 谷 歌 的 市 场 份额 迅速 
扩大 ， 同 时 将 雅虎 和 MSN 的 市 场 份额 打压 到 了 26% 以 下 。 人 们 普遍 认为 ， 合 歌 迅 速 上 
升 为 搜索 行业 冠军 是 得 益 于 其 排名 算法 。 因 此 ， 宫 不 夸张 地 说 ， 搜 索引 擎 的 生死 由 
其 排名 系统 的 质量 决定 。 不 过 ， 正 如 我 已 经 提 到 的 ， 我 们 将 在 下 一 章 探讨 排名 算 
法 。 至 于 现在 ， 让 我 们 专注 于 匹配 阶段 吧 .。 


AltaVista : 第 一 个 互联 网 级 别 的 匹配 算法 


搜索 引擎 匹配 算法 的 故事 从 哪里 开始 ? 一 个 很 显然 却 错误 的 回答 会 说 从 谷歌 
一 一 21 世 纪 初 期 最 伟大 的 技术 成 功 故事 一 开始。 事实 上 ， 谷 歌 最 初 只 是 两 位 斯 坦 
得 大 学 研究 生 的 博士 学 位 项 目 ， 这 个 故事 不 仅 温暖 人 心 ， 而 且 令 人 印象 深刻 。 拉 里 . 
佩 奇 ( Larry Page ) 和 谢 尔 兰 ` 布 林 ( Sergey Brin ) 在 1998 年 组 丢 了 一 推 计算 机 
硬件 来 运行 一 种 新 的 搜索 引 警 。 不 到 18 年 ， 他 们 的 公司 成 为 了 互联 网 时 代 崛 起 的 最 
伟大 的 数字 巨人 。 


不 过 ， 互 联网 搜索 的 想法 已 经 存在 很 多 年 了 。 最 早 的 两 业 应 用 是 Infoseek 和 
Lycos ( 两 者 都 于 1994 年 推出 ) ， 以 及 于 1995 年 推出 搜索 引 警 的 AltaVista。26 世 
纪 96 年 代 中 期 的 几 年 中 ，AltaVvista 是 搜索 引擎 的 王者 。 当 时 我 还 是 一 名 计算 机 科 
学 研究 生 ， 我 清楚 地 记得 自己 惊叹 于 Altavista 搜 索 结果 的 成 熟 度 。 有 史 以 来 第 一 
次 ， 有 一 个 搜索 引擎 能 完全 索引 互联 网 上 每 一 个 页 面 的 全 部 文本 。 更 可 贵 的 是 ， 皮 
眼 间 就 能 返回 结果 。 要 继续 理解 这 个 令 人 回味 的 技术 突破 ， 我 们 要 从 接触 一 个 古老 
的 ( 毫 不 夸张 ) 概念 一 一 索引 一 一 开始 。 


古老 的 索引 


索引 的 概念 是 所 有 搜索 引擎 背后 最 基础 的 思想 。 但 索引 并 非 由 搜索 引擎 友 明 : 
事实 上 ， 索 引 的 思想 几乎 和 书写 本 身 一 样 上 古老。 比如 ， 人 类 学 家 上 发现 了 一 座 具 有 五 
干 年 历史 的 巴比伦 神 庙 图 书馆 ， 里 面 按 学 科 对 模 形 文字 泥 版 进行 了 分 类 。 因 此 ， 玄 
引 可 以 称 得 上 是 计算 机 科学 中 最 古老 的 有 用 思想 。 


如 今 ，“ 索 引 ” 这 个 词 通常 指 参 考 书 最 后 的 一 个 板块 。 你 可 能 想 要 查看 的 所 有 
概念 都 以 固定 顺序 ( 通常 是 按 字母 排序 ) 列 出 ， 每 一 个 概念 下 都 列 出 了 这 个 概念 出 
现 的 位 置 ( 通常 是 页 码 ) 。 因 此 ， 一 本 和 动物 有 关 的 书 也 许 会 有 一 个 像 “cheetah 
124，156” 的 索引 项 。 这 个 索引 项 意味 着 “cheetah” ( 猎狗 ) 这 个 词 在 第 124 页 和 
第 156 页 出 现 过 。 ( 让 你 做 个 相当 有 趣 的 练习 ， 你 可 以 在 本 书 的 索引 中 查 
询 “index” 这 个 词 。 你 应 该 可 以 找到 这 一 页 。 ) 





1 | 。 猫 吵 在 热 子 狗 站 在 垫子 上 。 | 3 | 。 猫 站 起 ， 狗 由 下 





一 个 假想 的 万 维 网 ， 由 编号 为 1、2 和 3 的 三 个 页 面 组 成 。 





一 个 用 页 码 表 示 的 简单 索引 。 


互联 网 搜索 引擎 的 索引 和 一 本 书 的 索引 有 着 相同 的 工作 原理 。 书 “页 ”现在 成 
了 万 维 网 上 的 网 页 ， 而 搜索 引擎 则 给 互联 网 上 的 每 个 网 页 分 配 了 一 个 不 同 的 页 码 。 
( 是 的 ， 互 联网 上 虽然 有 很 多 网 页 一 一 最 新 的 数据 显示 有 成 特 上 干 亿 个 一 一 但 计算 
机 很 擅长 处 理 大 数字 。 ) 上 图 给 出 了 一 个 会 让 整个 过 程 更 具体 的 例子 。 想 象 万 维 网 
只 由 上 面 显示 的 3 个 短 网 页 组 成 ， 它 们 分 别 分 配 到 了 页 码 1、2 和 3。 





计算 机 可 以 为 这 三 个 网 页 创建 一 个 索引 : 首先 要 为 出 现在 任 一 页 面 上 的 所 有 单 


词 创 建 一 个 列表 ， 然 后 按 字母 表 顺 序 整 理 这 张 列 表 。 我 们 可 以 将 结果 称 为 单词 表 
( word list ) 一 一 在 这 个 例子 中 是 “a、cat、dog、mat、on、sat、stood、 


the、while”。 然 后 计算 机 会 一 个 单词 一 个 单词 地 搜 遍 所 有 页 面 。 计 算 机 会 标注 每 
个 单词 所 在 的 页 码 ， 然 后 再 标注 单词 表 中 下 一 个 单词 的 位 置 。 最 终结 果 显 示 在 上 图 
中 。 比 如 ， 你 可 以 立即 看 到 单词 “cat” 出 现在 第 1 页 和 第 3 页 ， 却 不 在 第 2 页 。 而 单 
词 “while” 只 出 现在 第 3 页 。 


通过 这 种 简单 方法 ， 搜 索引 警 残 已 经 能 回答 许多 简单 的 查询 。 比 如 ， 假 设 你 输 
入 查询 词 “cat”， 搜 索引 擎 能 很 快 跳 转 到 单词 表 中 的 “cat” 项 。 ( 因为 字母 表 是 
按 字 母 排 序 的 ， 计 算 机 能 很 快 找到 任何 项 ， 残 像 我 们 可 以 很 快 找到 词典 中 的 一 个 单 
词 一 样 。 ) 一 旦 计算 机 找到 “cat” 项 ， 搜 索引 擎 残 能 给 出 该 项 的 页 面 询 表 一 一 在 
这 个 例子 中 残 是 第 1 页 和 第 3 页 。 现 代 搜 索引 警 对 结果 的 组 织 很 合理 ， 只 摘 取 了 返回 
页 面 的 少许 片段 ， 不 过 ， 我 们 基本 上 会 忽略 这 样 的 细节 ， 将 精力 集中 在 搜索 引擎 如 
何 知道 页 面 “ 符 合 ”用 户 输入 的 查询 上 。 


再 举 另 一 个 非常 简单 的 例子 ， 让 我 们 来 检查 一 下 查询 “dog” 的 步 又。 在 这 个 例 
子 中 ， 搜 索引 擎 很 快 会 找到 “dog” 项 ， 并 返回 页 码 2 和 3。 如 果 碍 询 多 个 单词 ， 
如 “cat dog” 呢 ? 这 表示 你 正在 寻找 同时 包含 单词 “cat” 和 “dog” 的 页 面 。 通 


过 已 有 的 系 引 ， 搜 索引 擎 也 能 很 容易 查 到 结果 。 搜 索引 擎 首先 会 单独 查找 这 两 个 单 
词 ， 找 出 它们 分 别 在 哪些 页 面 中 。 结 果 是 “cat” 在 第 1 页 和 第 3 页 ，“dog” 在 第 2 

页 和 第 3 页 。 之 后 ,计算机 能 快速 扫描 这 两 个 命中 列表 ， 寻找 同时 出 现在 两 个 列表 中 
的 页 码 。 在 这 个 例子 中 ， 第 1 页 和 第 2 页 被 排除 了 ， 但 第 3 页 同时 出 现在 两 个 列表 中 ， 

因此 最 终 答案 天 是 第 3 页 上 的 一 次 单独 命中 。 与 之 极其 相似 的 一 个 策略 也 适用 于 超过 
两 个 单词 的 查询 。 比 如 ， 查询 “cat the sat” 会 返回 第 1 页 和 第 3 页 为 命中 ， 因 为 
七 们 是 “cat”(1,3)、 “the” (1,2,3) 和 “sat”(1,3 ) 这 个 列表 的 通用 
元 素 。 


束 目 前 来 看 ， 搭 建 一 个 搜索 引擎 听 起 来 相当 容易 。 最 简单 的 索引 技术 似乎 运行 
得 很 好 ， 即 便 对 多 词 查询 也 是 如 此 。 不 幸 的 是 ， 这 种 简单 方法 完全 不 能 满足 现代 搜 
索引 擎 的 需要 。 出 现 这 种 情况 的 原因 有 几 个 ， 不 过 现在 我 们 只 会 天 注 其 中 之 一 : 如 
何 做 短语 查询 。 短 语 查询 是 指 寻 找 一 个 确切 短语 的 查询 ， 而 非 凑巧 一 些 单词 出 现在 
页 面 中 的 某 些 地 方 。 比 如 ，“cat sat” 和 查询 和 cat sat 查 询 的 意义 截然 不 
同 。 氏 cat sat 查询 寻找 的 是 在 任何 位 置 包 含 “cat” 和 “sat” 两 个 单词 的 页 面 ， 
不 考虑 顺序 ; 而 “cat sat” 查 询 寻 找 的 是 包含 单词 “cat” 之 后 紧 跟 单 
词 “sat” 的 页 面 。 在 上 面 那 个 由 三 个 网 页 组 成 的 简单 例子 中 ，cat sat 查 询 结果 命 
中 第 1 页 和 第 3 页 , 但 “cat sat” 查 询 只 返回 一 次 命中 ， 就 在 第 1 页 。 


一 个 搜索 引擎 如 何 才能 有 效 地 进行 一 次 短语 查询 呢 ? 继续 说 “cat ”sat” 这 个 
例子 。 第 一 步 和 平常 的 多 词 查询 cat sat 一 样 ， 从 单词 表 中 获取 每 个 单词 出 现 的 网 
页 列表 ， 在 这 个 例子 中 残 是 出 现在 第 1 页 和 第 3 页 的 “cat” ; “sat” 也 一 样 ， 出 现 
在 第 1 页 和 第 3 页 。 不 过 搜索 引擎 到 这 里 束 卡 住 了 。 搜 索引 泡 很 确切 地 知道 两 个 单词 
同时 出 现在 页 面 1 和 页 面 3 上 ， 但 没有 办 法 来 分 辨 这 些 单词 是 否 以 正确 的 顺序 紧 挨 着 
彼此 出 现 。 你 也 许 会 想 ， 搜 索引 掌 可 以 返回 查看 原 网 页 ， 看 这 个 短语 是 否 存 在 。 这 


的 确 是 个 可 能 的 解决 万 案 ， 但 效率 却 非 常 非常 低 。 这 需要 遍历 每 一 个 可 能 包含 这 个 
短语 的 网 页 的 全 部 内 容 ， 而 且 可 能 有 海量 这 样 的 网 页 。 记 住 ， 我 们 在 这 里 打交道 的 
是 一 个 只 由 三 个 页 面 组 成 的 极 小 的 例子 ， 真 正 的 搜索 引擎 必须 从 数 百 亿 个 网 页 中 找 
出 正确 的 结果 。 


词 位 置 把 戏 


这 一 问题 的 解决 方案 是 让 现代 搜索 引擎 运行 良好 的 首 个 、 真 正 精巧 的 思想 : 索 
引 应 该 不 单单 存储 页 码 ， 还 要 存储 页 面 内 的 位 置 。 这 些 位 置 并 不 神秘 : 它们 只 是 代 
表 了 一 个 词 在 页 面 中 的 位 置 。 第 3 个 词 的 位 置 是 3， 第 29 个 词 的 位 置 是 29， 依 此 类 
推 。 例 子 中 三 个 页 面 组 成 的 数据 集 如 下 页 图 所 示 ， 还 加 上 了 词 位 置 。 图 下 面 的 是 索 
引 一 一 由 存储 页 码 和 词 位 置 中 得 出 的 结果 组 成 。 我 们 称 这 种 创建 索引 的 方法 为 “ 词 
位 置 把 戏 ” ( word location trick ) 。 举 几 个 例子 ， 以 确保 大 家 理解 了 词 位 置 把 
戏 。 索 引 的 第 一 行 是 “a3-5.”。 这 意味 着 词 “a” 只 在 数据 集中 出 现 过 一 次 ， 是 第 
3 页 的 第 5 个 单词 。 索 引 中 最 长 的 一 行 是 “the 1-1 1-5 2-1 2-5 3-1”。 这 一 行 可 
以 让 你 知道 ， 这 个 数据 集中 所 有 出 现 单词 “the” 的 具体 位 置 。 它 在 第 1 页 出 现 过 两 
次 ( 位 置 1 和 5 ) ， 第 2 页 出 现 过 两 次 ( 位 置 1 和 5 ) ， 第 3 页 出 现 过 1 次 ( 位 置 1 ) 。 


你 还 记得 介绍 页 内 词 位 置 的 目的 吗 ? 是 为 了 解决 如 何 有 效 地 进行 短语 查询 这 个 
问题 。 让 我 们 来 看 看 如 何 用 这 个 新 索引 做 一 次 短语 查询 。 还 是 和 前 面 一 样 ， 查 询 短 
语 “cat sat”。 第 一 步 和 使 用 旧 索 引 时 一 样 : 从 索引 中 提取 单个 词 的 位 
置 ，“cat” 的 位 置 是 1-2、3-2，“sat” 的 位 置 是 1-3、3-7。 到 这 里 还 好 : 我 们 
知道 短语 查询 “cat sat” 唯一 可 能 的 命中 就 是 在 第 1 页 和 第 3 页 。 但 与 之 前 一 样 ， 
我 们 还 不 确定 相同 的 短语 是 否 出 现在 了 这 些 页 面 中 一 一 有 可 能 这 两 个 单词 的 确 出 现 


了 ， 但 并 不 是 以 正确 的 顺序 彼此 相 邻 。 幸 运 的 是 ， 从 位 置信 息 中 确认 这 一 点 很 容 
易 。 首 先 从 第 1 页 开始 。 根 据 索引 信息 ， 我 们 知道 “cat” 出 现在 第 1 页 的 位 置 2 ( 这 
就 是 1-2 的 含义 ) 。 我 们 还 知道 “sat” 出 现在 第 1 页 的 位 置 3 ( 这 是 1-3 的 含义 ) 。 
但 如 果 “cat” 在 位 置 2 ，“sat” 在 位 置 3， 我 们 就 知道 “sat” 紧 挨 着 出 现 

在 “cat” 之 后 ( 因为 2 之 后 立即 融 是 3 ) 一 一 因此 我 们 寻找 的 整个 短语 “cat 
sat” 必 定 出 现在 第 1 页 ， 并 从 位 置 2 开 始 。 





1 | the cat sat on 2 | the dog stood 3 [the cat stood | 





| Rr He 4 | | 
the mat | onthe mat 
eed hi 
a 3-5 
cat 1-2 3-2 
dog 2-2 3-6 
mat 1-6 2-6 
on 1-4 2-4 
sat -1-3 3-7 
stood 2-3 3-3 
the 11 15 2-1 2-5 3.1 
while 3-4 


底 图 : 同时 包含 页 码 和 页 内 词 位 置 的 新 索引 。 
项 图 : 3 个 网 页 加 上 了 页 内 词 位 置 。 
我 知道 自己 在 这 点 上 谈 得 很 多 ， 但 巨细 无 遗 、 从 头 至 尾 地 研究 这 个 例子 ， 是 为 
了 让 读者 真正 地 理解 为 了 获得 答案 究竟 使 用 了 哪些 信息 。 注 意 ， 我 们 已 经 为 短 


语 “cat sat” 找 到 了 一 次 命中 ， 仅 仅 是 通过 查看 率 引 信息 ( “cat” 的 位 置 1-2、 
3-2 ，“sat” 的 位 置 1-3、3-7 ) ， 而 非 原始 网 页 。 这 很 关键 ， 因 为 我 们 只 需 查 看 率 
引 中 的 两 个 项 ， 而 非 遍 历 所 有 可 能 包含 命中 的 页 面 一 一 而 在 进行 真正 短语 查询 的 真 
正 的 搜索 引擎 中 ， 可 能 有 数 百 万 个 这 样 的 页 面 。 忆 之 : 通过 在 索引 中 加 入 页 内 词 位 
置 ， 我 们 只 需 通过 查看 索引 中 的 几 行 ， 残 能 找到 一 次 短语 查询 命中 ， 而 非 妃 历 海 量 
页 面 。 这 个 简单 的 词 位 置 把 戏 是 让 搜索 引擎 奏效 的 关键 之 一 。 


事实 上 ， 我 还 没 讲 完 “cat sat” 这 个 例子 。 我 们 完成 了 对 第 1 页 信息 的 处 理 ， 
但 第 3 页 还 没 处 理 。 对 第 3 页 的 推理 和 第 1 页 的 处 理 方 式 很 相似 : “cat” 出 现在 第 3 
页 的 位 置 2 ，“sat” 出 现在 位 置 7， 因 此 它们 不 可 能 相 邻 一 一 因为 罕 跟 2 之 后 出 现 的 
不 是 7。 这 样 我 们 就 知道 ， 第 3 页 并 不 是 短语 查询 “cat ”sat” 的 命中 ， 尽管 它 是 多 
词 查询 cat sat 的 命中 。 





顺便 癌 一 下 ， 词 位 置 把 戏 不 仅仅 对 短语 查询 重要 。 举 个 例子 ， 思 考 一 下 寻找 相 
邻 单 词 的 问题 。 在 一 些 搜索 引擎 中 ， 用 户 可 以 在 查询 中 使 用 “NEAR” 关键 词 做 到 这 
一 点 。 事 实 上 ，AltaVista 搜 索引 擎 在 早期 融 提 供 了 这 一 功能 ， 在 本 书写 作 时 仍然 
提供 。 作 为 一 个 特殊 的 例子 ， 假 设 在 一 些 特别 的 搜索 引擎 中 ， 碍 询 cat NEAR dog 
会 找到 “dog” 前 后 五 个 位 置 之 内 出 现 “cat” 的 页 面 。 我 们 如 何 才能 在 数据 集中 有 
效 地 执行 这 种 查询 ? 使 用 词 位 置 ， 会 使 查询 变 得 很 容易 。 “cat” 的 系 引 项 是 1-2、 
3-2 ,而 “dog” 的 索引 项 是 2-2、3-6。 可 以 立刻 看 出 ， 第 3 页 是 唯一 可 能 的 命中 。 
而 在 第 3 页 ，“cat” 出 现在 位 置 2 ，“dog” 出 现在 位 置 6。 因 此 这 两 个 词 之 间 的 距 


离 是 6 - 2， 结 果 是 4。 因 此 ，“cat” 的 确 出 现在 “dog” 前 后 五 个 位 置 之 内 ， 而 第 3 
页 则 是 查询 cat ”NEAR ”dog 的 命中 。 和 前 面 一 样 ， 请 注意 这 次 查询 的 执行 是 多 么 高 


效 : 无 须 思 历任 何 网 页 的 实际 内 容 一 一 相反 ， 只 参考 了 索引 中 的 两 个 项 。 


不 过 ， 在 实际 中 ，NEAR 查 询 对 搜索 引 警 用户 并 不 非常 重要 。 几 乎 没 人 使 用 NEAR 
查询 ， 绝 大 多 数 主 要 搜索 引 警 甚至 不 支持 它们 。 尽 管 如 此 ， 能 执行 NEAR 查 询 的 能 
实际 上 对 现实 中 的 搜索 引擎 至 关 重 要 。 这 是 因为 搜索 引擎 不 断 地 在 后 台 执 行 NEAR 查 
询 。 要 理解 其 中 的 原因 ， 我 们 首先 不 得 不 研究 现代 搜索 引擎 面临 的 主要 问题 之 一 : 
排名 的 问题 。 


排名 和 邻 度 


到 目前 为 止 ， 我们 一 直 专 注 于 匹配 阶段 : 为 一 个 给 出 的 查询 高 效 地 找 出 所 有 命 
中 的 问题 。 不 过 正如 之 前 强调 的 ， 第 二 个 阶段 “排名 ”对 于 一 个 高 质量 的 搜索 引擎 
是 绝对 必 不 可 少 的 : 这 是 挑选 出 前 几 个 命中 并 展示 给 用 尸 的 阶段 。 


让 我 们 更 细致 地 来 检验 排名 的 概念 。 一 个 网 页 的 “排名 ”究竟 取决 于 什么 ? 真 
正 的 问题 不 是 “这 个 网 页 和 查询 匹配 吗 ”， 而 是 “这 个 网 页 和 查询 相关 吗 ”。 计 算 
机 科学 家 们 使 用 “相关 度 ” ( relevance ) 这 个 术语 来 形容 一 个 结果 网 页 和 某 个 特 
定 查 询 有 多 么 相配 或 多 么 有 用 。 


举 个 具体 的 例子 ， 假 设 你 对 导致 症 疾 的 原因 感 兴趣 ,并 在 一 个 搜索 引擎 中 输入 
查询 malaria cause ( 导致 旋 医 ) 。 简 化 考虑 ， 假 设 搜索 引擎 对 这 一 查询 只 有 两 个 
命中 一 一 下 图 显示 的 两 个 网 页 。 现 人 在 来 看 看 这 两 个 网 页 。 作 为 人 类 ， 你 很 快 融 知 道 
第 1 页 和 症 疾 起 因 有 关 ， 而 第 2 页 似乎 是 对 刚刚 发 生 的 一 些 军事 行动 的 描述 ， 只 不 过 
恰巧 使 用 了 “cause” 和 “malaria” 这 两 个 词 。 因 此 ， 和 第 2 页 相 比 ， 第 1 页 无 疑 和 
坦 询 malaria cause 更 具 相 关 性 。 可 计算 机 不 是 人 ， 让 计算 机 理解 这 两 页 的 主题 也 
很 难 ， 似 乎 不 可 能 让 搜索 引擎 正确 地 对 这 两 个 命中 进行 排名 。 





also 1-19 
cause 1-6 2-2 


malaria 1-8 2-19 


whom 2-15 
项 图 : 两 个 提 及 症 疾 的 样本 网 页 。 
底 图 : 从 上 方 两 个 网 页 中 创建 的 索引 的 一 部 分 。 
不 过 ， 事实 上 ， 有 一 种 很 简单 的 方法 让 这 个 例子 中 的 排名 正确 。 查 询 词 彼此 相 
邻 的 网 页 比 那 些 查询 词 相距 很 远 的 网 页 相关 度 更 高 。 在 症 疾 这 个 例子 
中 ， ”malaria” 和 “cause” 在 第 1 页 中 仪 相距 1 个 词 ， 而 在 第 2 页 中 则 相距 17 个 
词 。 ( 记 住 ， 搜 索引 掌 只 通过 查看 索引 项 就 能 高 效 地 发 现 这 一 点 ， 无 须 返 回 查 看 网 
页 。 ) 因此 ， 尽 管 计算 机 并 不 真正 地 “理解 ”查询 的 主题 ， 它 也 能 猜测 网 页 1 比 网 页 
2 更 具 相 关 性 ， 因 为 网 页 1 查询 词 之 间 的 距离 要 比 网 页 2 更 近 。 


总 而 言 之 ， 尽 管 人 们 不 经 常 使 用 NEAR 查 询 ， 搜 索引 擎 也 在 不 断 地 使 用 和 邻 度 有 


关 的 信息 ， 提 高 搜索 排名 。 而 它们 能 高 效 地 做 到 这 点 的 原因 则 是 ， 它 们 使 用 词 位 置 
把 戏 。 





一 个 网 页 范例 集 ， 每 个 网 页 都 有 一 个 标题 和 一 段 正文 。 


我 们 已 经 了 解 到 ， 早 在 距 今 5 e686 年 以 前 ， 巴比伦 人 束 开 始 使 用 索引 。 而 词 定位 
把 戏 也 不 是 由 搜索 引擎 及 明 的 : 这 是 互联 网 出 现 以 前 ， 另 一 种 信息 检索 中 用 到 的 车 
名 技术 。 不 过 ， 在 下 一 部 分 ， 我 们 将 了 解 一 个 看 起 来 的 确 是 由 搜索 引擎 设计 者 友 明 
的 新 把 戏 : 元 词 把 戏 ( metaword ”trick ) 。 对 这 一 把 戏 和 众多 相关 思想 的 精巧 运 
用 ， 使 AltaVista 搜 索引 擎 在 26 世 纪 98 年 代 晚 期 迅速 成 为 搜索 行业 的 领头 手 。 


元 词 把 戏 


到 目前 为 止 ， 我 们 一 直 都 在 使 用 极其 简单 的 网 页 示例 。 然 而 ， 绝 大 多 数 网 页 拥 
有 众多 结构 ， 包 括 标题 、 标 头 、 链 接 和 图 片 ， 可 我 们 还 一 直 认 为 网 页 只 是 普通 的 词 
表 。 接 下 来 ， 我 们 将 探索 搜索 引擎 如 何 处 理 网 页 中 的 结构 。 不 过 ， 为 了 尽 可 能 保持 
简单 ， 我 们 只 会 引入 一 层 结构 : 网 页 的 顶部 会 有 一 个 标题 ， 之 后 是 页 面 的 正文 。 上 
图 显示 了 我 们 熟悉 的 三 页 示例 ， 并 附加 了 一 些 标题 。 


实际 上 ， 和 要 像 搜 索引 擎 一 样 分 析 网 页 结构 ， 我 们 需要 了 解 更 多 编写 网 页 的 知 
识 。 网 页 是 由 一 种 特殊 语言 编写 的 ， 以 便 网 络 浏览 器 能 用 很 好 的 格式 展示 它们 。 
( 编写 网 页 最 音 用 的 语言 被 称 为 HTML， 不 过 HTML 的 细节 对 本 次 讨论 不 重要 。 ) 标 


头 、 标 题 、 链 接 、 图 片 等 格式 化 结构 是 用 被 称 为 元 词 的 特殊 单词 编写 的 。 比 如 ， 网 
页 标题 开始 使 用 的 元 词 也 许 是 <titlestart>， 而 结束 这 个 标题 的 元 词 可 能 是 

<titleEnd>。 类 似 的 ， 网 页 正文 可 能 是 以 <bodystart> 开 始 ， 以 <bodyEnd> 结 束 。 
不 要 纠结 于 “<”、“>” 这 些 符号 。 它 们 出 现在 绝 大 多 数 计 算 机 键盘 上 ， 人 们 通常 
只 知道 这 些 符号 的 数学 意义 是 “大 于 ”和 “小 于 ”。 不 过 在 这 里 ， 这 些 符号 和 数学 


没有 任何 关系 ， 只 是 方便 的 象征 ， 将 这 些 元 词 和 网 页 中 的 正常 单词 区 分 开 来 。 


1 | <titlestart> my | <titleStart> my 3 |<titleStart> my pets 
cat <titleEnd> | dog <titleEnd> 





' <titleEnd> <bodyStart> 
<bodyStart> the <bodyStart> the the cat stood While a 
cat sat on the | dog stood on the 


mat <bodyEnd> mat <bodyEnd> 


dog sat <bodyEnd> 





和 上 图 一 样 的 网 页 集 ， 但 展示 的 是 用 元 词 编写 的 情况 ， 而 非 在 网 络 浏览 器 中 显示 的 样子 。 


看 一 下 上 面 的 图 。 这 张 图 展示 的 内 容 和 前 一 张 图 一 样 ， 但 显示 的 是 实际 编写 网 
页 的 样子 ， 而 非 在 网 络 浏览 器 中 显示 的 样子 。 绝 大 多 数 网 络 浏览 器 都 能 让 用 尸检 验 
网 页 的 原始 内 容 ， 这 需要 选择 名 为 “查看 网 页 源 代码 ”的 菜单 选项 一 一 我 建议 你 
次 有 机 会 试验 一 下 。 ( 注意 ， 在 这 里 使 用 的 元 词 ， 如 <titlestart> 和 <titleEnd> 
是 帮助 你 理解 的 虚构 的 、 易 于 辨认 的 示例 。 在 真实 的 HTML 中 ， 元 词 被 称 作 标 签 
( tag ) 。HTML 中 开启 和 结束 标题 的 标签 是 <title> 和 </title> 一 一 你 可 以 在 使 
用 “查看 网 页 源 代码 ”的 菜单 选项 后 搜索 这 些 标签 。 ) 





在 创建 一 份 索引 时 ， 圳 括 所 有 元 词 是 件 很 简单 的 事 。 无 须 新 把 戏 : 你 只 要 像 存 
储 正常 单词 一 样 存储 元 词 位 置 就 行 。 下 页 的 图 显示 了 从 带 有 元 词 的 三 个 网 页 中 创建 
的 索引 。 看 一 下 这 张 图 ， 确 保 自己 理解 了 其 中 所 有 的 奥秘 。 比 如 ，“mat” 的 项 是 1- 
11、2-11， 表示 “mat” 是 第 1 页 的 第 11 个 词 ， 也 是 第 2 页 的 第 11 个 词 。 元 词 位 置 的 


解读 也 一 样 ，“<titleEnd>” 的 项 是 1-4、2-4 和 3-4， 也 就 是 
说 “<titleEnd>” 是 第 1 页 、 第 2 页 和 第 3 页 的 第 4 个 词 。 


我 们 称 这 种 和 索引 普通 单词 一 样 率 引 元 词 的 简单 把 戏 为 “元 词 把 戏 ”。 这 个 把 
戏 也 许 看 起 来 简单 得 可 笑 ， 但 元 词 把 戏 在 让 搜索 引擎 执行 精确 搜索 和 高 质量 排名 上 
扮演 了 至 关 重要 的 角色 。 举 个 简单 例子 证 明 。 假 设 在 某 个 时 候 ， 有 个 搜索 引擎 支持 
使 用 IN 关键 词 的 特殊 查询 ， 因 此 像 boat IN _ TITLE 这 样 的 查询 只 会 返回 在 网 页 标题 
中 包含 了 单词 “boat” 的 网 页 ， 而 查询 giraffe IN ”BODY 则 会 找到 在 正文 中 包 
含 "giraffe” ( 长 矣 鹿 ) 的 网 页 。 请 注意 ， 绝 大 多 数 搜索 引擎 并 不 完全 按照 这 种 
方法 提供 IN 查询 ， 但 一 些 搜索 引擎 可 以 通过 让 你 点 击 “高 级 搜索 ”选项 ， 详 细 说 明 
查询 词 必须 出 现 


a 3-10 

cat 1-3 1-7 3-7 
dog 2-3 2-7 3-11 
mat 1-11 2-11 

my 1-2 2-2 3-2 
on 1-9 2-9 

pets 3-3 

sat 1-8 3-12 

stood 2-8 3-8 

the 1-6 1-10 2-6 2-10 3-6 
while 3-9 

<bodyEnd> 1-12 2-12 3-13 
<bodyStart> 1-5 2-5 3-5 
<titleEnd> 1-4 2-4 3-4 
<titleStart> 1-1 2-1 3-1 


上 一 张 图 中 的 网 页 ( 包括 元 词 ) 的 索引 。 


dog: (2-3 27 和 3 


<titleStart> : 1-1 £273 


一 一 一 一 一 


<titleEnd> : 1-4 (2-6 3-4， 


搜索 引 警 如何 有 效 地 执行 查询 dog IN TITLE。 


在 标题 或 一 份 文件 的 特定 位 置 来 实现 同样 的 效果 。 我 们 假定 IN 天 键 词 存 在， 以 
便 更 容易 解释 。 事 实 上 ， 在 写作 本 书 时 ， 谷 歌 已 经 可 以 让 用 户 通过 使 用 关键 词 
intit1le 进 行 标题 搜索 : 因此 ， 在 谷歌 中 查询 intitle:boat， 将 找到 标题 中 带 
有 “boat” 的 网 页 。 自 己 试 试 ! 


让 我 们 来 看 看 ， 在 上 面 两 张 图 中 由 三 个 网 页 组 成 的 示例 里 。 


首先 ， 搜 索引 掌 提 取 “dog” 的 索引 项 ， 也 就 是 2-3、2-7 和 3-11。 然 后 ( 这 可 
能 有 后 出 人 意料 ， 但 请 忍耐 片刻 ) 搜索 引擎 会 同时 提取 <titlestart> 和 
<tit1leEnd> 的 索引 项 。 


<tit1leSstart> 的 索引 项 是 1-1、2-1 和 3-1 ,<titleEnd> 的 索引 项 是 1-4、2-4 
和 3-4。 这 些 提取 信息 全 部 显示 在 上 图 中 ， 你 可 以 忽略 那些 圈 和 框 。 


之 后 ， 搜 索引 擎 开始 扫 摘 “dog ”的 率 引 项 ， 检 查 其 命中 ， 看 是 否 有 哪个 依 中 友 
生 在 标题 内 。 “dog” 的 第 一 个 命中 是 圈 起 来 的 项 2-3， 代 表 其 是 第 2 页 的 第 3 个 
通过 一 并 扫 拉 <titlestart> 的 项 ,搜索 引擎 束 能 知道 第 2 页 的 标题 从 哪 开始 
率 引 项 的 第 一 个 数字 要 以 “2-” 开 始 ， 也 融 是 被 圈 的 项 2-1， 即 第 2 页 的 标题 从 第 1 





个 单词 处 开始 。 同 样 的 ， 搜 索引 掌 能 知道 第 2 页 的 标题 在 哪 结束 。 搜 索引 擎 只 要 扫 摘 
索引 项 中 的 <titleEnd>， 寻 找 以 “2-” 开 始 的 索引 项 数字 ， 在 这 个 例子 中 融 是 停止 
在 被 圈 的 项 2-4 处 。 因 此 第 2 页 的 标题 在 第 4 个 词 处 结束 。 


我 们 目前 已 知 的 所 有 东西 都 被 图 中 图 住 的 项 忌 结 了 。 它 们 告诉 我 们 第 2 页 的 标题 
从 第 1 个 词 开 始 ， 到 第 4 个 词 结束 ， 而 “dog” 这 个 词 是 第 3 个 词 。 最 后 一 步 很 简单 : 
因为 3 大 于 1， 小 于 4， 我们 肯定 “dog” 的 这 次 命中 确实 出 现在 一 个 标题 中 ， 因 此 第 


2 页 应 该 是 查询 dog IN TITLE 的 命中 。 


现在 搜索 引擎 可 以 转向 寻找 “dog ”的 第 二 个 命中 ， 也 就 是 2-7 ( 第 2 页 的 第 7 个 
词 ) ， 但 因为 我 们 已 经 知道 第 2 页 是 命中 ， 因 此 可 以 忽略 2-7 这 个 项 ， 转 向 下 一 个 命 
中 3-11 ( 由 一 个 框 标记 ) 。 这 表示 “dog” 是 第 3 页 第 11 个 词 。 于 是 我 们 开始 跳 过 被 
圈 住 的 <titlestart> 和 <titleEnd> 项 ,寻找 以 “3-” 开 始 的 项 。 ( 有 一 点 需要 重 
点 注意 ， 我 们 不 必 回 到 每 行 的 开始 ， 而 是 可 以 从 之 前 扫描 命中 的 地 方 重新 开始 。 ) 
在 这 个 简单 例子 中 ， 以 “3-” 开 始 的 项 恰好 彼此 相 令 B 
<titleEnd> 是 3-4。 为 便于 参考 ， 这 两 个 数字 都 用 框 围 了 起 来 。 接 下 来 ， 我 们 又 面 
临 判定 “dog” 在 3-11 的 命中 是 否 位 于 标题 内 的 问题 。 框 内 信息 告诉 我 们 ， 它 们 都 
是 在 第 三 页 ，“dog” 是 第 11 个 词 ， 而 标题 从 第 1 个 词 开 始 ， 到 第 4 个 词 结束 。 因 为 
11 大 于 4， 所 以 “dog” 的 这 次 命中 出 现在 标题 之 后 ， 也 就 是 不 在 标题 内 。 网 页 3 并 


不 是 查询 dog IN TITLE 的 命中 。 


<titlestart> 是 3-1， 





元 词 把 戏 能 让 搜索 引擎 以 极端 高 效 的 万 式 回 应 有 关 一 个 文件 结构 的 查询 。 上 面 
的 例子 只 是 搜索 页 面 标题 内 ， 但 类 似 的 技术 能 让 用 户 搜索 超 链 接 、 图 片 质 述 和 网 页 
其 他 有 用 部 分 内 的 词 。 而 且 所 有 这 类 查询 都 可 以 像 上 面 的 例子 一 样 得 到 高 效 回应 。 
正如 我 们 之 前 讨论 过 的 查询 ， 搜 索引 掌 无 须 返 回 查 看 原始 网 页 : 搜索 引擎 只 需 查 阅 


小 部 分 索引 项 ， 就 能 回应 查询 。 同 样 重要 的 是 ， 搜 索引 警 只 需 遍 历 每 个 索引 项 一 
次 。 还 记得 我 们 在 完成 处 理 第 2 页 的 首 个 命中 后 ， 转 向 第 3 页 的 可 能 命中 时 友 生 了 什 
么 吗 ? 搜索 引擎 并 没有 返回 索引 项 <titlestart> 和 <titleEnd> 的 开端 ,而 是 从 之 
前 离开 的 地 方 继续 进行 扫描 。 这 也 是 让 IN 查 询 高 效 的 关键 因素 。 


标题 查询 和 其 他 取决 于 网 页 结构 的 “结构 查询 ”类 似 于 之 前 讨论 的 NEAR 查 询 ， 
虽然 人 们 极 少 执行 结构 查询 ， 但 搜索 引擎 无 时 无 刻 不 在 内 部 使 用 它们 。 原 因 之 前 提 
过 : 搜索 引擎 的 生死 由 其 排名 的 质量 决定 ， 而 通过 利用 网 页 结构 ， 排 名 质量 能 够 得 
到 大 幅 提 升 。 比 如 ， 标题 中 有 “dog” 的 网 页 包含 与 狗 有 关 信 息 的 可 能 性 ， 要 比 在 网 
页 正文 中 提 及 “dog” 的 网 页 大 得 多 。 因 此 ， 当 一 名 用 户 输入 简单 的 查询 dog， 搜 索 
引擎 能 在 内 部 执行 一 个 dog IN TITLE 查 询 ( 即便 用 户 并 未 详细 地 要 求 这 一 点 ) ， 以 
寻找 最 有 可 能 与 狗 有 关 的 网 页 ， 而 非 只 是 恰好 提 到 狗 的 网 页 。 


索引 和 匹配 把 戏 并 非 是 全 部 内 容 


搭建 一 个 搜索 引擎 并 不 是 一 件 容易 的 事情 。 最 终 成 品 残 像 一 个 巨大 的 复杂 机 
器 ， 市 有 许多 不 同 的 轮子 、 友 动机 和 杠杆 。 这 些 妆 置 都 必须 安 半 正确， 系统 才能 
用 。 因 此 ， 单 靠 在 本 章 中 出 现 的 两 个 把 戏 并 不 能 解决 创建 一 个 高 效 搜索 引擎 索引 的 
问题 ， 意 识 到 这 一 点 很 重要 。 不 过 ， 词 位 置 把 戏 和 元 词 把 戏 无 疑 展现 了 真正 的 搜索 
引擎 构建 和 使 用 索引 的 “风味 ”。 





元 词 把 戏 的 确 帮 助 过 AltaVista 一 一 其 他 搜索 引擎 则 失败 了 一 一 成 功 地 在 整个 
互联 网 中 寻找 有 效 匹 配 。 我 们 之 所 以 知道 这 一 点 ， 是 因为 AltaVista 在 1999 年 递交 
的 美国 专利 文件 《 紊 5 的 限制 搜索 》 ( Constrained Searching of an Index ) 
中 描述 了 元 词 把 戏 。 不 过 ，AltaVista 超 级 精巧 的 匹配 算法 并 不 足以 让 其 从 搜索 行 


业 波 涛 泣 涌 的 早期 脱 颗 而 出 。 正 如 我 们 已 经 知道 的 ， 有 效 匹 配 只 是 一 个 高 效 搜索 引 
擎 的 一 半 ， 另 一 大 挑战 是 对 匹配 网 页 进行 排名 。 正 如 我 们 将 在 下 一 章 中 看 到 的 ， 一 
种 新 排名 算法 的 出 现 足以 让 AltaVista 相 形 见 红 ， 并 让 谷歌 一 跃进 入 网 络 搜索 世界 
的 最 前 沿 。 


[1 注意 英文 单词 的 双 引 号 。 一 一 译 者 注 


第 三 章 
PageRank 
一 一 让 合 歌 腾飞 的 技术 


《星际 迷航 》 ( star Trek ) 中 的 计算 机 并 不 特别 让 人 感 兴趣 。 他 们 向 计算 机 提问 题 ， 计算机 还 要 想 一 会 儿 。 我 
觉得 我 们 能 做 得 更 好 。 


一 一 拉 里 : 佩 奇 ( 谷歌 联合 创始 人 ) 


从 建筑 学 的 角度 来 说 ， 车 库 基本 上 是 个 简陋 的 地 方 。 但 在 硅谷 ， 和 车库 有 一 种 特 
殊 的 创业 含义 : 许多 伟大 的 硅谷 技术 公司 在 此 诞生 或 至 少 从 车 库 中 孵化 而 来 。 这 一 
趋势 并 非 欠 28 世 纪 96 年 代 的 互联 网 泡沫 开始 。 在 互联 网 泡沫 出 现 的 56 多 年 前 ， 也 就 
是 1939 年 ， 当 世界 经 济 仍 示 从 大 萧条 的 影响 中 走出 来 时 ， 惠普 ( Hewlett- 
Packard ) 就 在 加 利 福 尼 亚 州 帕 洛 阿尔 托 ( Palo Alto ) 戴 夫 :- 休 利 特 ( Dave 
Hewlett ) 的 车 库 中 逐渐 成 形 了 。 几 十 年 之 后 ， 史 蒂 夫 :乔布斯 ( Steve Jobs ) 和 史 
蒂 夫 : 沃 北 尼 亚 克 ( Steve Wozniak ) 于 1976 年 在 加 利 福 尼 亚 州 洛斯 拉 图 斯 乔布斯 的 
车 库 中 创业 ， 之 后 创建 了 今天 传奇 的 苹果 计算 机 公司 。 ( 尽管 传说 苹果 公司 创办 于 
车 库 ， 乔 布 斯 和 沃 将 尼 亚 克 一 开始 其 实 是 从 一 间 卧 室 开始 的 。 空 间 很 快 就 不 够 用 
了 ， 于 是 他 们 转移 到 了 和 车库 。 ) 不 过 ， 和 惠普 和 苹果 的 成 功 故事 相 比 ， 一 个 名 为 谷 
歌 的 搜索 引擎 的 创办 过 程 更 令 人 惊叹 。 谷 歌 从 加 利 福 尼 亚 州 门 洛 帕克 市 的 一 间 车 库 
开始 ， 并 于 1998 年 9 月 注册 成 立 公 司 。 


那 时 ， 人 谷歌 事 实 上 已 经 运 言 自己 的 搜索 引擎 一 年 多 了 一 一 最 开始 是 在 斯 坦 福 大 
学 的 服务 器 上 ， 谷 歌 的 两 位 联合 创始 人 都 是 斯 坦 福 博士 生 。 直 到 斯 坦 昼 大 学 再 也 不 
能 承受 这 一 日 葵 受 欢迎 的 服务 所 需要 的 囊 党 ， 拉 里 : 佩 奇 和 谢 尔 蘑 - 布 林 才 把 公司 转移 
到 了 如 今 著 名 的 门 洛 帕克 车 库 。 他 们 肯定 做 了 些 正确 的 事 ， 因 为 在 他 们 正式 成 立 公 
司 3 个 月 后 ,美国 《个 人 计算 机 杂志 》 ( PC Magazine ) 融 宣 布谷 歌 是 1998 年 美国 排 
名 前 一 百 的 网 站 之 一 。 





这 也 是 我 们 的 故事 真正 开始 的 地 方 : 在 当年 《个 人 计算 机 杂志 》 的 评论 中 ， 合 
歌 的 精英 管理 层 因为 谷歌 “以 超 乎 寻常 的 技巧 返回 相关 度 极 高 的 结果 ”而 获奖 。 你 
也 许 还 记得 上 一 章 提 到 过 ， 第 一 个 商业 搜索 引擎 于 4 年 前 的 1994 年 友 布 。 还 在 车 库 里 
的 谷歌 怎么 能 弥补 4 年 的 巨大 差距 ， 在 搜索 质量 上 超越 已 经 很 受 欢迎 的 Lycos 和 


AltaVista 呢 ? 这 一 问题 的 答案 可 不 简单 。 但 最 重要 的 因素 之 一 一 一 尤其 是 在 网 络 
搜索 早期 一 一 就 是 谷歌 用 来 对 其 搜索 结果 进行 排名 的 创新 算法 : 一 个 被 称 为 
PageRank 的 著名 算法 。 


“PageRank” 是 个 双关 词 : 它 既是 一 种 对 网 页 排名 的 算法 ， 也 是 其 主要 发 明 者 
拉 里 . 佩 奇 的 排名 算法 。 佩 奇 和 布 林 在 1998 年 的 一 篇 学 术 会 议论 文 《解析 大 规模 超 文 
本 网 络 搜索 引擎》 ( the Anatomy of a Large-Scale Hypertextual Web 
Search ”Engine ) 中 上 友 表 了 这 一 算法 。 正 如 论文 标题 所 暗示 的 ， 这 篇 论文 的 内 容 不 
止 是 描述 PageRank。 事 实 上 ， 这 是 对 1998 年 存在 的 谷歌 系统 的 完整 描述 。 但 藏 在 这 
一 系统 技术 细节 中 的 ， 是 对 也 许 是 21 世 纪 出 现 的 第 一 个 算法 瑰宝 的 描述 : PageRank 
算法 。 在 本 章 ， 我 们 将 探索 这 一 算法 如 何以 及 为 什么 能 在 草 霹 中 寻 针 ， 并 持续 为 搜 
索 查 询 提供 最 相关 的 结 也 是 排名 最 靠 前 的 命中 。 





超 链 接 把 戏 


你 很 有 可 能 已 经 知道 了 超 链 接 是 什么 : 超 链接 是 网 页 上 的 一 个 短语 ， 当 你 点 击 
它 时 ， 你 将 被 市 到 另 一 个 网 页 。 绝 大 多 数 网 络 浏览 器 用 蓝 色 搬 线 显示 超 链接 ， 以 便 


能 轻易 识别 。 


令 人 意外 的 是 ， 超 链接 也 是 老 想 法 。1945 年 一 一 大 约 在 同时 开始 开发 电子 计算 
机 一 一 美国 工程 师范 内 瓦 : 布 什 (Vannevar ”Bush ) 发 表 了 一 篇 极 具 前 颇 性 的 论文 
《 诚 若 所 思 》。 在 这 篇 涉猎 广泛 的 论文 中 ， 布 什 描述 了 大 量 可 能 的 新 技术 ， 包 括 一 
台 被 称 作 麦 麦克 斯 ( memex ) 的 机 器 。 麦 麦克 斯 可 以 存储 文件 并 自动 进行 索引 ,但 其 
功能 远 不 止 这 些 。 麦 麦克 斯 允许 “关联 索引 ..…… 任 何 被 选中 的 东西 都 能 立即 自动 选择 
另 一 个 东西 ”一 一 换 句 话说 ， 一 种 早期 的 超 链接 。 





伯 特 的 炒 蛋 菜谱 
首先 融 一 小 勺 的 


欧 尼 的 炒 蛋 菜谱 
加 盐 和 和 胡椒， 在 一 
个 大 碗 里 把 四 个 鸡 





























,，, “| “| 我 非常 喜欢 伯 特 的 | | | 伯 特 的 菜谱 太 





伯 特 的 菜谱 绝 
妙 无 比 ! 


超 链 接 把 戏 ( the hyperlink trick ) 的 原理 。 上 面 显示 了 6 个 网 页 ， 每 个 框 都 代表 1 个 网 页 。 其 中 2 个 网 页 是 
炒 蛋 菜谱 ， 其 余 4 个 网 页 都 有 这 些 菜 谱 的 超 链 接 。 超 链接 把 戏 认 为 伯 特 的 网 页 比 欧 尼 的 网 页 排名 高 ， 因 为 伯 特 有 
三 个 链 入 链接 ( incoming 1ink ) ， 而 欧 尼 的 只 有 一 个 。 





超 链 接 目 1945 年 残 已 出 现 。 它 们 是 搜索 引擎 用 来 进行 排名 最 重要 的 工具 之 一 ， 
而 且 是 谷歌 PageRank 技 术 的 基础 。 接 下 来 ， 我 们 将 开始 以 最 大 的 热情 探索 PageRank 
技术 。 


理解 PageRank 的 第 一 步 是 一 个 名 为 超 链 接 把 戏 的 简单 想法 。 用 一 个 例子 融 能 非 
单 容易 地 解释 这 个 把 戏 。 假 设 你 对 学 习 如 何 制 作 炒 和 归 感 兴趣 ， 并 且 用 网 络 搜索 了 这 
一 主题 。 如 今 ， 任 何 一 次 真正 搜索 炒 重 的 网 络 搜索 都 会 出 现 数 百 万 个 合 中 ， 但 为 方 
便 起 见 ， 让 我 们 想象 只 有 两 个 网 页 出 现 : 其 中 一 个 是 “ 欧 尼 的 炒 蛋 菜谱 ”， 而 另 一 
个 则 是 “但 特 的 炒 重 菜谱 ”。 这 两 个 网 页 都 出 现在 上 图 中 ， 与 之 一 道 的 是 拥有 这 些 


菜谱 超 链 接 的 网 页 。 还 是 为 了 方便 起 见 ， 让 我 们 想象 这 四 个 包含 超 链接 的 网 页 是 整 
个 互联 网 上 仪 有 的 链接 到 两 个 菜谱 网 页 之 一 的 网 页 。 图 中 底部 画 线 的 文字 束 代 表 起 
链接 ， 而 箭头 则 表示 链接 的 指向 。 


问题 是 ， 这 两 个 命中 哪个 排名 应 该 更 高 ? 伯 特 还 是 欧 尼 ? 人 们 在 阅读 链 向 这 两 
份 菜 谱 的 网 页 并 作出 评价 上 不 会 有 太 大 的 问题 。 看 起 来 这 两 份 菜谱 都 很 合理 ， 但 人 
们 对 伯 特 菜谱 的 反响 要 更 为 热烈 一 些 。 因 此 ， 在 没有 给 出 其 他 信息 的 情况 下 ， 伯 特 
的 菜谱 比 欧 尼 的 菜谱 排名 更 高 可 能 会 更 合理 。 


不 笠 的 是 ， 计 算 机 并 不 擅长 理解 网 页 的 真实 意思 ,因此 搜索 引擎 检查 这 四 个 链 
同 命 中 的 网 页 ， 并 对 每 份 菜谱 获 推荐 的 强烈 程度 进行 评估 也 不 太 可 能 。 另 外 ， 计 算 
机 在 计算 方面 非常 优秀 。 一 种 简单 方法 束 是 只 计算 链 同 每 份 菜谱 的 网 页 数 一 一 在 这 
个 例子 中 ,一 个 网 页 链 向 欧 尼 的 菜谱 ， 三 个 网 页 链 向 伯 特 的 菜谱 一 一 并 根据 这 些 菜 
谱 的 链 入 链接 数 对 菜谱 排名 。 当 然 ， 这 种 方法 远 不 如 让 人 阅读 所 有 页 面 并 手动 排名 
精确 ， 但 无 疑 是 一 种 有 用 的 方法 。 如 果 你 没有 其 他 信息 ， 一 个 网 页 的 链 入 链接 数 可 
以 成 为 该 网 页 可 能 会 多 有 用 或 多 有 “权威 性 ”的 指标 。 在 这 个 例子 中 ， 但 特 的 菜谱 
得 分 为 3， 欧 尼 的 菜谱 得 分 为 1， 因 此 在 搜索 引擎 向 用 户 展 示 的 结果 中 ， 伯 特 的 网 页 
排名 比 欧 尼 的 高 。 


你 可 能 已 经 友 现 了 一 些 在 排名 上 使 用 这 种 “ 超 链 接 把 戏 ” 的 问题 。 一 个 很 明显 
的 问题 就 是 ,有 了 时候 链接 被 用 来 显示 差 网 页 ， 而 非 好 网 页 。 比 如 ， 假 设 有 个 链接 欧 
尼 菜 谱 的 网 页 上 写 着 : “我 试 了 下 欧 尼 的 菜谱 ， 很 粮 森 。” 像 这 样 批评 而 非 推荐 一 
个 网 页 的 链接 ， 的 确 会 导致 超 链 接 把 戏 将 网 页 的 排名 拔高 。 不 过 ， 在 现实 中 ， 超 链 
接 更 多 是 用 于 推荐 而 非 批评 。 因 此 ， 尽 管 有 这 个 明显 的 缺陷 ， 超 链接 把 戏 仍然 很 有 
用 。 


权重 把 戏 


你 可 能 已 经 在 想 ， 为 什么 要 对 网 页 的 所 有 链 入 链接 一 视 同仁 。 来 自 专家 的 推荐 
肯定 就 要 比 菜鸟 的 推荐 更 有 价值 ? 要 细致 地 理解 这 一 点 ， 我 们 继续 研究 上 面 的 炒 蛋 
例子 ， 不 过 研究 的 是 另 一 组 链 入 链接 。 下 页 的 图 对 链 入 链接 进行 了 重新 设置 : 现 
在 ， 伯 特 和 欧 尼 的 菜谱 的 链 入 链接 数 相等 了 ( 只 有 一 个 ) ， 但 欧 尼 的 链 入 链接 来 目 
我 的 主页 ， 而 伯 特 的 则 来 自 于 著名 主 厨 效 利 斯 : 沃 特 斯 。 


如 果 没 有 其 他 信息 ， 你 更 喜欢 哪个 菜谱 ? 很 显然 ， 选 择 由 一 位 著名 主 厨 推荐 的 
菜谱 ， 要 比 选 择 由 一 名 计算 机 科学 相关 书籍 作者 推荐 的 菜谱 更 好 。 我 们 称 这 一 基本 
原则 为 “权重 把 戏 ” ( the authority trick ) :来 自 高 “权重 ”网 页 的 链接 排名 
要 比 来 自 低 “权重 ”网 页 链接 的 排名 高 。 













欧 尼 的 炒 蛋 菜谱 
加 盐 和 胡椒， 在 一 
个 大 碗 里 把 四 个 鸡 


伯 特 的 炒 蛋 菜谱 
首先 融 一 小 勺 
的 黄油 …:: 










约翰 麦 考 密 克 的 主页 
的 菜谱 一 次 ， 
一 总 都 不 差 。 


艾 利 斯 . 沃 特 斯 的 主页 
很 显然 ;但 特 的 菜 
详 是 最 好 的 炒 和 蛋 菜 
涤 : 定 二 





权重 把 戏 的 原理 。 这 里 显示 了 四 个 网 页 : 两 个 炒 蛋 菜谱 网 页 和 两 个 链 向 菜谱 的 网 页 。 其 中 一 个 链接 来 自 于 本 书 作 
者 ( 不 是 著名 主 厨 ) ， 而 另 一 个 链接 来 自 著 名 主 厨 艾 利 斯 * 沃 特 斯 的 主页 。 权 重 把 戏 将 伯 特 的 网 页 排 在 欧 尼 的 菜 
谱 之 前 ， 因 为 伯 特 的 链 入 链接 “权重 ” 比 欧 尼 的 链 入 链接 大 。 


这 个 原则 很 好 ， 但 其 实际 形式 对 搜索 引擎 而 言 一 点 用 都 没有 。 计 算 机 如 何 才能 
目 动 判定 艾 利 斯 - 沃 特 斯 在 炒 归 方面 比 我 更 具有 权威 性 呢 ? 有 个 想法 对 此 也 许 会 有 所 
帮助 : 让 我 们 把 超 链接 把 戏 和 权重 把 戏 结合 起 来 。 所 有 网 页 的 初始 权重 值 
(authority score ) 都 是 1， 但 如 果 一 个 网 页 有 链 入 链接 ， 在 计算 该 网 页 权重 时 融 
要 加 入 指向 其 的 网 页 的 权重 。 也 丈 是 说 ， 如 果 X 和 OY 网 页 链 向 z 网 页 ， 那 么 Zz 网 页 的 权 
重 束 是 X 网 页 和 Y 网 页 权重 相 加 的 值 。 


下 面 的 图 在 计算 这 两 个 炒 归 菜谱 网 页 的 权重 值 上 很 详细 。 终 值 显示 在 圆圈 中 。 
图 中 有 两 个 网 页 链 向 我 的 主页 ; 这 些 网 页 本 身 没有 链 入 链接 ， 因 此 权重 值 为 1。 我 的 


主页 的 权重 值 是 所 有 链 入 链接 权重 值 的 总 和 “， 相 加 得 2。 艾 利 斯 沃 特 斯 的 主页 有 166 
个 链 入 链接 ， 每 个 链 入 链接 的 权重 值 为 1， 因 此 它 的 权重 是 1686。 欧 尼 的 菜谱 只 有 一 
个 链 入 链接 ， 但 这 个 链 入 链接 的 权重 值 是 2， 因 此 将 其 所 有 链 入 链接 的 权重 值 相 加 

( 这 个 例子 中 只 有 一 个 数 可 加 ) ， 欧 尼 荣 谱 网 页 的 权重 值 为 2。 伯 特 荣 谱 网 页 也 只 有 
一 个 链 入 链接 ， 但 其 权重 值 为 698， 因此 伯 特 菜谱 网 页 的 权重 值 为 06。 而 因为 166 

大 于 2， 所 以 伯 特 的 网 页 排名 要 比 欧 尼 的 高 。 


伯 特 的 炒 蛋 菜 江 
首先 融 一 小 勺 的 


欧 尼 的 炒 蛋 菜谱 
加 盐 和 胡椒 ， 在 一 
个 大 碗 里 把 四 个 鸡 


很 显然 ， 伯 特 的 某 
| 庶 是 最 好 的 炒 下 
科 qo0 
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"100 页 *… 


glo glo 


对 两 个 炒 蛋 菜谱 网 页 “权重 值 ”的 简单 计算 。 权 重 值 显示 在 圆圈 中 ，。 


随机 访问 者 把 戏 


融 自 动 计 算 权 重 值 来 说 ， 我 们 似乎 拥有 了 一 个 真正 奏效 的 策略 ， 无 须 计 算 机 真 
正 地 理解 网 页 内 容 。 不 幸 的 是 ， 这 种 方法 有 个 大 问题 。 超 链接 很 有 可 能 形成 被 计算 
机 科学 家 称 为 “循环 ” ( cycle ) 的 东西 。 循 环 指 访问 者 可 以 通过 点 击 超 链接 返回 出 
发 时 的 网 页 。 


下 图 就 是 个 例子 。 图 中 有 A、B、C、D、E 五 个 网 页 。 如 果 从 A 开始 ， 我 们 可 以 通 
过 A 访 问 B， 然 后 又 从 B 访 问 E， 而 从 E 我 们 又 能 点 回 A， 也 融 是 回 到 了 出 友 点 。 这 也 意 
味 着 A、B 和 E 三 个 网 页 组 成 了 一 个 循环 。 





No 





循环 造成 的 问题 。 网 页 A、B 和 E 永 远 需 要 更 新 ， 它 们 的 权重 值 会 一 直 增 加 下 去 。 


看 来 ， 在 遇 到 循环 时 ， 目 前 “权重 值 ”的 定义 ( 将 超 链接 把 戏 和 权重 把 戏 结合 
起 来 ) 就 磁 到 大 麻烦 了 。 看 看 在 这 个 特例 中 会 友 生 什么 事情 。 网 页 C 和 D 没 有 链 入 链 
接 ， 因 此 其 权重 值 为 7。 网 页 C 和 D 都 链 向 网 页 A， 因 此 A 的 权重 值 是 网 页 Cc 和 0D 权重 值 
的 和 ， 也 就 是 1+1=2。B 网 页 从 A 获得 的 权重 值 为 2， 而 E 又 从 B 获 得 权重 值 2。 ( 这 里 
谈 到 的 情况 都 由 上 图 左 侧 部 分 所 体现 。 ) 但 现在 A 的 权重 值 要 更 新 了 : A 从 C 和 D 各 得 
到 权重 值 1， 但 也 从 E 得 到 权重 值 2， 相 加 为 4。 于 是 B 的 权重 值 也 需要 更 新 : 从 A 获得 
权重 值 4。 然 后 E 的 权重 值 也 要 更 新 ， 它 从 B 获 得 了 权重 值 4。 ( 现在 谈 到 的 情况 都 由 
上 图 右 侧 部 分 所 体现 。 ) 依 此 类 推 : 于 是 A 的 权重 值 变 为 6 ，B 为 6 ，E 为 6， 于 是 A 的 
权重 值 变 为 8..…… 你 懂 了 吧 ? 随 着 循环 进行 ， 网 页 的 权重 值 会 一 直 增 加 。 


这 样 计算 权重 值 ， 会 产生 “ 鸡 生 香 ， 还 是 重生 鸡 ” 的 问题 。 如 果 我 们 知道 A 网 页 
真正 的 权重 值 ， 我 们 融 能 计算 B 网 页 和 E 网 页 的 权重 值 。 而 如 果 我 们 知道 8 网 页 和 E 风 
页 真正 的 权重 值 ， 我 们 区 3 能 计算 A 网 页 的 权重 值 。 但 由 于 这 些 网 页 彼此 依赖 ， 似 乎 这 
样 计算 根本 行 不 通 。 





随机 访问 者 模式 ， 被 访问 者 访问 的 网 页 用 灰色 表示 ， 虚 线 箭头 代表 随机 重新 开始 访问 ( restart ) , 实 线 箭头 从 网 
页 A 开 始 ， 指 向 随机 选择 的 超 链接 ， 并 被 两 个 随机 重新 开始 访问 箭头 所 打 乱 。 


盏 运 的 是 ， 我 们 可 以 通过 被 称 为 随机 访问 者 把 戏 (the random surfer 
trick ) 的 技术 解决 这 个 “ 鸡 生 蛋 ， 还 是 蛋 生 鸡 ”的 问题 。 注 意 : 对 随机 访问 者 把 戏 
的 初始 描述 ， 和 到 目前 为 止 探讨 的 超 链 接 及 权重 把 戏 没有 任何 关联 。 一 旦 了 解 了 随 
机 访问 者 把 戏 的 基本 原理 ， 我 们 融会 做 一 些 分 析 ， 揭 示 其 令 人 瞩目 的 品质 : 随机 访 
问 者 把 戏 结合 了 超 链 接 及 权重 把 戏 令 人 喜爱 的 属性 ， 但 在 出 现 超 链接 循环 时 也 行 得 


通 。 


这 个 把 戏 从 假想 一 个 随机 访问 互联 网 的 人 开始 。 确 切 地 说 ， 访 问 者 随机 从 万 维 
网 上 的 一 个 网 页 开始 访问 ， 然 后 检查 该 网 页 上 的 所 有 超 链接 ， 之 后 随机 挑选 出 其 中 
一 个 超 链 接 进 行 点 击 。 用 户 再 检查 打开 的 新 网 页 ， 随 机 选择 一 个 超 链 接 打开 。 这 个 
过 程 会 持续 进行 ， 每 一 个 网 页 都 是 通过 随机 选择 前 一 个 网 页 上 的 链接 打开 的 。 上 图 
融 是 个 例子 。 在 这 个 例子 中 ， 我 们 假设 整个 万 维 网 只 有 16 个 网 页 。 框 代表 网 页 ， 稍 
头 代表 网 页 之 间 的 超 链 接 。 其 中 标记 了 四 个 网 页 以 便 稍 后 进行 参考 。 被 访问 者 访问 
的 网 页 用 灰色 表示 ， 黑 色 箭 头 代 表 访 问 者 点 击 的 超 链 接 ， 虚 线 箭头 代表 随机 重新 开 
台 访 问 ， 这 个 在 之 后 会 讲 到 。 


整个 过 程 有 一 个 转折 点 : 每 次 访问 一 个 网 页 时 ， 都 有 一 个 固定 的 重新 访问 概率 
( 大 概 是 15% ) ， 让 访问 者 不 从 已 有 的 超 链 接 中 挑选 一 个 并 点 击 。 相 反 ， 访 问 者 会 重 
新 开始 这 一 过 程 ， 从 互联 网 上 随机 选择 一 个 网 页 点 击 。 你 也 可 以 认为 访问 者 有 15% 的 
概率 对 任何 已 有 网 页 厌倦 ， 导 致 其 点 击 另 一 组 链接 ， 这 么 想 也 许 会 有 帮助 。 要 想 找 
些 例 子 ， 请 仔细 观察 上 图 。 这 个 特定 的 访问 者 从 网 页 A 开 始 ， 在 对 网 页 B 厌 倦 前 连续 
所 击 了 三 个 随机 超 链 接 ， 并 在 网 页 C 重 新 开始 。 在 下 次 重新 开始 前 ， 访 问 者 又 点 击 了 
两 个 随机 起 链 接 。 ( 顺便 说 一 句 ， 本 草 中 所 有 随机 访问 者 例子 中 的 重新 开始 概率 都 
为 15%， 这 也 是 谷歌 联合 创始 人 拉 里 . 佩 奇 和 谢 尔 兰 . 布 林 在 摘 述 其 搜索 引擎 原型 的 原 
始 论文 中 使 用 的 值 。 ) 


用 计算 机 模拟 这 一 过 程 很 容易 。 我 为 此 写 了 一 个 程序 并 运行 了 它 ， 直 到 访问 者 
访问 了 1 e886 个 网 页 。 ( 当然 ， 这 并 不 意味 着 是 1 866 个 不 重复 的 网 页 。 对 同一 网 页 
的 多 次 访问 也 被 纳入 了 计算 当中 ， 在 这 个 例子 中 ， 所 有 网 页 都 被 访问 了 多 次 。 ) 这 1 
666 次 模拟 访问 的 结果 显示 在 下 图 ( 顶 图 ) 中 。 你 可 以 看 到 ， 网 页 D 的 访问 次 数 最 


多 ， 有 144 次 。 


束 像 民意 调查 一 样 ， 我 们 可 以 通过 增加 随机 样本 的 数目 来 提高 模拟 精度 。 我 重 
新 运行 了 一 次 模拟 ， 直 到 访问 者 访问 了 一 下 万 个 网 页 。 ( 也 许 你 会 想 这 化 了 多 长 时 
间 ， 在 我 电脑 上 运行 只 人 花 了 不 到 半 秒 ! ) 考虑 到 访问 量 如 此 巨大 ， 还 是 用 百分比 表 
示 结 果 更 好 。 这 也 束 是 你 将 在 下 图 ( 底 图 ) 中 看 到 的 情形 。 和 之 前 的 结果 一 样 ， 网 
页 D 的 访问 次 数 最 频繁 ， 占 忌 访问 量 的 15%。 


随机 访问 者 模型 和 权重 把 戏 之 间 有 什么 联系 可 以 被 我 们 用 于 网 页 排名 呢 ? 从 随 
机 访问 者 模拟 中 计算 得 出 的 百分比 ， 正 好 融 是 我 们 在 衡量 一 个 网 页 的 权重 时 所 需要 
的 。 因 此 ， 让 我 们 将 网 页 的 访问 者 权重 值 ( surfer authority score ) 定义 为 一 
名 随机 访问 者 花 在 访问 该 网 页 的 时 间 比 例 。 值 得 注意 的 是 ， 访 问 者 权重 值 能 和 前 两 
个 对 网 页 重要 性 进行 排名 的 把 戏 配合 恨 好 。 我 们 会 逐一 审视 这 些 把 戏 。 


首先 ， 让 我 们 来 审视 一 下 超 链接 把 戏 : 超 链接 把 戏 的 主要 思想 是 ， 一 个 有 许多 
链 入 链接 的 网 页 应 该 有 高 排名 。 这 在 随机 访问 者 模型 中 也 适用 ， 因 为 一 个 有 许多 链 
入 链接 的 网 页 被 访问 的 概率 较 大 。 下 图 ( 底 图 ) 中 的 网 页 D 残 是 个 好 例子 : 它 有 五 个 
链 入 链接 一 一 比 模拟 中 的 其 他 网 页 都 多 一 一 访问 者 权重 值 也 最 高 ( 15% ) 。 


其 次 ， 让 我 们 来 看 看 权重 把 戏 。 权 重 把 戏 的 主要 思想 是 ， 和 来 自 低 权重 网 页 的 
链 入 链接 相 比 ， 一 个 来 自 高 权重 网 页 的 链 入 链接 应 该 更 能 证 明 一 个 网 页 的 排名 。 随 
机 访问 者 模型 也 包含 这 一 点 。 为 什么 ? 因为 和 一 个 来 自 不 知名 网 页 的 链接 相 比 ， 访 
问 者 更 有 可 能 继续 点 击 一 个 来 自 知 名 网 页 的 链 入 链接 。 要 在 我 们 的 模拟 中 找 这 样 一 
个 例子 ， 请 比较 上 面 底 图 中 的 网 页 A 和 Cc : 这 两 个 网 页 都 有 一 个 链 入 链接 ， 但 网 页 A 的 
访问 者 权重 值 要 高 得 多 ( 13% VS 2% ) ， 这 主要 取决 于 其 链 入 链接 的 质量 。 








随机 访问 者 模拟 。 项 图 : 1888 次 访问 模拟 中 各 网 页 的 访问 次 数 。 
底 图 : 166 万 次 访问 模拟 中 各 网 页 的 访问 次 数 占 比 。 


注意 ， 随 机 访问 者 模型 天 生 能 同时 和 超 链 接 把 戏 及 权重 把 戏 相配 合 。 


前 文 炒 香 例 中 各 网 页 的 访问 者 权重 值 。 伯 特 的 菜谱 网 页 和 欧 尼 的 菜谱 网 页 都 只 
有 一 个 链 入 链接 传 入 权重 ， 但 但 特 的 网 页 在 网 络 搜索 查询 “scrambled eggs”( 炒 
蛋 ) 时 排名 会 更 高 。 


损 句 话说 ， 每 个 网 页 链 入 链接 的 质量 和 数量 都 会 被 纳入 考虑 区 围 。 网 页 B 残 展示 


导 府 于 


了 这 些 : 网 页 B 的 访问 者 权重 值 相对 较 高 ( 16% ) ， 得 益 于 三 个 链 入 链接 所 在 的 网 页 
拥有 适中 的 访问 者 权重 值 ， 从 4% 到 7% 不 等 。 


随机 访问 者 把 戏 的 美妙 之 处 在 于 ， 和 权重 把 戏 不 同 ， 不 管 超 链接 有 没有 形成 循 
环 ， 随 机 访问 者 把 戏 都 能 完美 地 运作 。 回 到 早 前 的 炒 生 例子， 我 们 能 轻易 地 运行 一 
次 随机 访问 者 模拟 。 在 数 百 万 次 访问 乙 后 ， 我 的 模拟 产生 了 如 上 图 所 示 的 访问 者 权 


A B 


早 前 超 链接 循环 例子 ( 此 图 ) 的 访问 者 权重 值 。 随 机 访问 者 把 戏 在 计算 合理 的 分 值 上 没有 问 管 存 在 一 个 循 
环 (A-B-E-A) 





请 留意 ， 和 之 前 使 用 权重 把 戏 进行 的 计算 一 样 ， 但 特 的 网 页 访问 者 权重 值 要 比 
欧 尼 的 网 页 高 很 多 ( 28%VS 1% 管 这 两 个 网 页 都 只 有 一 个 链 入 链接 。 因 此 ， 
伯 特 的 网 页 在 网 络 搜 索 查询 “scrambled eggs”( 炒 蛋 ) 中 排名 更 高 。 











现在 让 我 们 再 转向 前 文中 更 困难 的 例子 : 对 于 最 初 的 权重 把 戏 而 言 ， 由 于 超 链 
接 循 环 的 存 任 ， 这 张 图 产生 了 一 个 不 可 解 的 问题 。 和 前 面 一 样 ， 运 行 一 次 随机 访问 
者 的 计算 机 模拟 很 容易 ， 于 是 产生 了 如 上 图 所 示 的 访问 者 权重 值 。 由 这 一 模拟 判定 
的 访问 者 权重 值 给 出 了 网 页 的 最 终 排 名 ， 这 些 排 名 会 被 搜索 引擎 在 返回 结果 时 使 
用 : 网 页 A 排名 最 高 ， 之 后 是 B 和 E，C 和 ID 的 排名 同 列 最 后 一 名 。 


实际 中 的 PageRank 


谷歌 的 两 位 联合 创始 人 于 1998 年 在 他 们 著名 的 会 议论 文 《解析 大 规模 超 文 本 网 
络 搜索 引 敬 》 中 摘 述 了 随机 访问 者 把 戏 。 通 过 和 其 他 许多 技术 结合 ， 这 一 把 戏 的 变 
体 仍 被 主流 搜索 引 警 所 使 用 。 不 过 ， 由 于 众多 复杂 因素 ， 应 用 在 现代 搜索 引擎 中 的 
实际 技术 和 本 章 摘 述 的 随机 访问 者 把 戏 略 有 不 同 。 


其 中 一 个 复杂 因素 直击 PageRank 的 核心 : 有 时 候 ， 假 设 超 链 接 传输 的 合法 权威 
性 有 争议 。 我 们 先前 已 了 解 到 ， 尽 管 超 链接 能 代表 批评 而 非 推荐 ， 但 这 在 现实 中 并 
不 是 个 很 大 的 问题 。 另 一 个 更 加 严重 的 问题 是 ， 人们 可 以 滥用 超 链接 把 戏 ,人 为 地 
提高 自己 网 页 的 排名 。 假 设 你 运营 着 一 个 名 为 BooksBooksBooks .com 的 网 站 来 售 书 
( 惊讶 吧 ) 。 通 过 使 用 自动 化 技术 ， 创 建 一 大 堆 不 同 的 网 页 一 一 比如 一 万 个 一 一 并 
让 这 些 网 页 都 链 向 BooksBooksBooks. com， 做 到 这 一 切 相 对 很 容易 。 因 此 ， 如 果 搜 
索引 擎 和 本 章 描述 的 一 样 来 计算 PageRank 权 重 ，BooksBooksBooks .com 的 权重 值 
就 能 比 其 他 书店 高 数 干 倍 ， 进 而 有 更 高 的 排名 和 更 多 的 销售 额 ， 而 这 都 不 是 


BooksBooksBooks .com 应 得 的 。 


搜索 引擎 称 这 种 滥用 为 网 络 垃圾 ( web spam ) 。 ( 这 一 术语 是 和 电子 邮件 垃圾 
《<e-mail ”spam> 类 比 得 来 的 : 电子 邮件 收 件 箱 中 无 用 的 信息 ， 类 似 于 充斥 在 搜索 结 


果 中 无 用 的 网 页 。 ) 对 于 所 有 搜索 引 警 而 言 ， 侦 测 并 消除 不 同类 型 的 网 络 垃圾 是 一 
和 直 在 进行 的 重要 任务 。 比 如 ， 在 28864 年 ， 微 软 一 些 研 究 人 员 友 现 ， 逾 36 万 个 网 页 都 
只 有 1 ”8681 个 网 页 链 向 它们 一 一 这 是 件 非常 令 人 生 疑 的 事情 。 通 过 手动 检查 这 些 网 
页 ， 研 究 人 员 友 现 ， 这 些 链 入 超 链 接 绝 大 多 数 都 是 网 络 垃 圾 。 


因此 ， 搜 索引 掌 和 网 络 垃圾 制造 者 在 进行 一 场 军备 竞赛 。 搜 索引 掌 不 断 尝 试 完 
善 算法 ， 以 便 返 回 真实 排名 。 在 完善 PageRank 算 法 的 驱动 下 ， 孕育 了 大 量 针 对 其 他 
使 用 互联 网 超 链 接 结构 进行 网 页 排名 的 算法 的 学 术 和 行业 研究 。 这 类 算法 通常 被 称 
为 基于 链接 的 排名 算法 ( link-based ranking algorithms ) 。 


男 一 个 复杂 因素 与 PageRank 计 算 的 高 效 性 有 关 。 访 问 者 权重 值 是 通过 运行 随机 
模拟 来 计算 的 ， 但 在 整个 互联 网 上 运行 这 类 模拟 耗 时 太 长 ， 不 能 进行 实际 运用 。 
此 ， 搜 索引 擎 并 非 通 过 模拟 随机 访问 者 来 计算 PageRank 值 : 它们 使 用 能 像 随机 访问 
者 模拟 一 样 给 出 相同 答案 的 数学 技 I5， 但 计算 成 本 要 低 很 多 。 我 们 研究 访问 者 模拟 
技术 是 因为 它 直 观 的 吸引 力 ， 也 因为 它 摘 述 了 搜索 引擎 计算 什么 ， 而 非 如 何 计算 。 


另外 ， 值 得 一 提 的 还 有 ， 商业 搜索 引擎 中 用 来 判定 排名 的 算法 ， 要 比 PageRank 
这 类 基于 链接 的 排名 算法 多 得 多 。 即 便 是 在 他 们 于 1998 年 友 表 的 摘 述 谷歌 的 原始 论 
文中 ， 人 谷歌 的 联合 创始 人 也 提 到 了 多 种 对 搜索 结果 排名 有 贡献 的 功能 。 正 如 你 所 想 
的 ， 这 项 技术 已 经 进步 了 : 在 写作 本 书 时 ， 合 歌 官 网 上 声明 “有 超过 2866 个 信号 ”被 
用 于 评估 一 个 网 页 的 重要 性 。 


除了 现代 搜索 引擎 的 众多 复杂 性 之 外 ，PageRank 核 心 的 优美 思想 一 一 权威 性 网 
页 通过 超 链接 向 其 他 网 页 传输 权重 一 一 仍然 有 效 。 正 是 这 一 思想 帮助 谷歌 击败 了 


AltaVista， 让 谷歌 从 一 家 小 型 创业 企业 几 年 后 成 长 为 搜索 之 王 。 没 有 PageRank 的 
核心 思想 ， 绝 大 多 数 搜 索引 擎 查询 都 将 被 成 干 上 万 命中 但 不 相关 的 网 页 海洋 所 淹 


没 。PageRank 的 确 是 一 块 算法 瑰宝 ， 能 让 针 曲 不 费力 地 冒 到 草 坎 的 顶 哨 。 


第 四 章 
公 钥 加 密 


一 一 用 明信片 传输 秘密 


谁 知道 我 这 些 最 隐秘 的 事情 ? 它们 就 藏 在 这 个 世界 中 。 


《 立 约 的 女人 》 ( Covenant Woman ) 


人 们 喜欢 传 谣 ， 也 喜欢 了 解 秘密 。 而 由 于 加 密 的 目的 束 是 传输 秘密 ， 所 以 我 们 
都 是 天 生 的 密码 员 。 但 人 类 进行 秘密 沟通 要 比 计算 机 容易 。 如 果 你 想 向 朋友 透露 一 
个 秘密 ， 你 只 需 在 朋友 和 耳 边 低 声 说 束 行 。 计 算 机 要 做 到 这 一 点 束 不 那么 容易 了 。 一 
台 计 算 机 没有 办 法 “ 低 声 ” 疝 另 一 台 计 算 机 透露 一 张 信 用 卡 的 卡号 。 如 果 计算 机 由 
互联 网 相连 ， 它 们 控制 不 了 信用 卡 卡 号 的 流向 ， 也 无 法 控制 会 有 哪些 计算 机 知道 卡 
号 。 在 本 草 ， 我 们 会 探究 计算 机 如 何 应 对 这 一 问题 一 一 通过 运用 永远 都 称 得 上 最 精 
巧 、 最 具 影 响 力 的 计算 机 科学 思想 之 一 : 公 钥 加 密 ( public key 


cryptography ) 。 





读 到 这 里 ， 你 也 许 会 想 ， 为 什么 本 章 的 标题 中 会 提 到 “用 明信片 传输 秘密 ” 
下 页 图 会 给 出 答案 : 可 以 用 通过 明信片 传输 作为 类 比 ， 以 展示 公 钥 加 密 的 威力 。 在 
现实 生活 中 ， 如 果 你 想 要 上 送 一 份 机 密 文 件 给 某 人 ， 你 目 然 会 在 友人 送 前 将 文件 封 他 
在 一 个 安全 的 密封 的 信封 内 。 这 并 不 能 保证 机 密 性 ， 但 却 是 正确 方向 上 的 一 个 合理 
步 又。 相反 ， 如 果 企 太 送 机 密 消息 前 ， 将 机 密 信息 写 在 明 信 卢 背面 ， 很 明显 ， 这 违 
育 了 机 密 性 : 任何 一 个 接触 过 明信片 的 人 ( 比如 邮局 工作 人 员 ) 都 只 需 查 看 明 信 


片 ， 残 能 读 到 这 条 消息 。 


这 也 正 是 计算 机 在 互联 网 上 尝试 相互 进行 机 密 通信 时 面临 的 问题 。 因 为 互联 网 
上 的 所 有 消息 都 会 通过 无 数 被 称 为 路 由 器 的 计算 机 ， 消 息 的 内 容 可 以 为 任何 访问 路 
由 器 的 人 所 见 ， 而 这 也 包括 潜在 的 恶意 穷 听 者 。 因 此 ， 每 一 块 离开 你 计算 机 并 进入 
互联 网 的 数据 ， 残 好像 写 在 明信片 上 ! 






明信片 杰 与 人 
邮局 工作 人 员 


你 的 笔记 本 电脑 


互联 网 路 由 麻 
互联 网 路 由 各 Amazon.com 服 务 器 
(及 潜在 的 窃听 者 ) 
明信片 类 比 : 很 显然 ， 通 过 邮政 系统 寄 出 一 张 明 信 片 不 能 保证 明信片 内 容 的 秘密 性 。 基 于 同样 的 理由 ， 如果 没有 
恰当 地 加 密 ， 从 你 的 笔记 本 电脑 上 将 一 张 信 用 卡 的 卡号 发 送 给 Amazon. com, 很 容易 就 会 被 一 名 窃听 者 寅 探 到 。 


针对 这 个 明信片 问题 ， 你 也 许 已 经 想到 了 一 个 快速 补救 方案 。 在 将 消息 写 到 明 
信和 请 上 之 前 ， 为 什么 我 们 不 使 用 密码 对 每 条 消息 进行 加 密 呢 ? 实际 上 ， 如 果 你 已 经 


知道 接收 明信片 的 人 ， 这 个 方法 还 能 奏效 ， 因 为 在 过 去 某 个 时 刻 ， 你 们 融 使 用 哪 种 
密码 已 经 达成 一 致 。 真 正 的 问题 出 现在 你 给 不 认识 的 人 寄 明 信 片 时 。 如 果 你 在 明 信 
片上 使 用 密码 ， 邮 局 工作 人 员 融 不 能 读 取 你 的 消息 ， 收 信人 当然 也 不 能 ! 公 钥 加 密 
的 真正 威力 在 于 ， 它 允许 你 应 用 只 有 接收 方才 能 解密 的 密码 一 一 除非 你 不 能 残 使 用 
哪 种 密码 达成 一 致 。 


注意 ， 计 算 机 在 和 不 “认识 ”的 接收 方 通信 时 会 面临 相同 的 问题 。 比 如 ， 你 第 
一 次 用 信用 卡 在 Amazon.com 上 购物 时 ， 你 的 计算 机 必须 将 你 的 信用 卡 卡号 传输 给 亚 
马 逊 的 服务 器 。 但 你 的 计算 机 之 前 从 未 和 亚马逊 的 服务 器 联系 过 ， 因 此 这 两 全 计算 
机 在 过 去 没有 机 会 融 密 码 达 成 一 致 。 而 它们 乙 间 芝 旗 达 成 的 任何 协议 都 会 争 互 联网 
上 所 有 的 路 由 器 注意 到 。 


让 我 们 回 到 明信片 的 类 比 。 的 确 ， 这 种 情况 听 起 来 像 个 悖 论 : 接收 方 看 到 的 信 
息 和 邮局 工作 人 员 看 到 的 一 样 ， 但 接收 方 却 有 某 种 手段 能 解码 消息 ， 而 邮局 工作 人 
员 却 没有 这 种 手段 。 公 钥 加 密 为 这 一 悖 论 提 供 了 一 个 解决 方案 。 本 章 将 解释 其 工作 
原理 。 


让 我 们 从 一 个 非 钊 简单 的 思想 实验 开始 。 我 们 将 放弃 明信片 类 比 ， 用 一 些 更 简 
单 的 来 代 蔡 : 在 一 个 房间 内 的 口头 交流 。 上 有 具体 情况 是 ， 你 和 朋友 阿诺德 以 及 敌人 伊 
关 待 在 一 个 房间 里 。 你 想 要 秘密 地 传输 一 条 消息 给 阿诺德 ， 但 又 不 能 让 伊 关 理 解 这 
条 消息 。 这 条 消息 可 能 是 一 张 信 用 卡 的 卡号 ， 但 为 方便 起 见 ， 假 设 这 是 一 个 极其 短 
的 信用 卡 卡 号 ， 只 是 1 到 9 之 间 的 一 个 数字 。 而 你 只 能 通过 大 声 说 话 和 阿诺德 联系 ， 
好 让 伊 关 听 到 。 不 得 偷偷 摸 摸 地 要 小 把 戏 ， 比 如 小 声 说 或 传 纸 条 。 


具体 来 说 ， 让 我 们 假设 你 试图 传输 的 信用 卡 卡 号 为 7。 有 一 种 方法 可 以 让 你 达成 
目标 : 首先 ， 尝 试想 一 些 阿诺德 知道 而 伊 关 不 知道 的 数字 ; 比如 ， 你 和 阿诺德 成 为 
朋友 很 久 了 ， 从 孩提 时 就 生活 在 同一 条 街 上 。 事 实 上 ， 假 设 你 俩 经 常 在 你 家 前 院 玩 
页 ， 门牌 号 是 愉快 街 322 号 。 其 次 ， 假 设 伊 天 并 不 是 从 小 束 认 识 你 ， 特 别 是 她 不 知道 
你 和 阿诺德 过 去 经 常 玩 页 的 房屋 地 址 。 你 殊 能 对 阿诺德 说 : “ 嘿 ， 阿 庄 德 ， 记 得 我 
在 愉快 街 的 家 的 门牌 号 吗 ? 我 们 过 去 一 起 玩 机 的 地 方 。 如 果 你 用 门牌 号 ， 加 上 我 现 


在 想到 的 信用 卡 卡 号 中 的 一 个 数 ， 你 会 得 到 329。" 





329 









阿 读 德 


相 加 把 戏 : 通过 将 消息 7 和 共享 密 钥 322 相 加 ， 消息 7 被 加 密 了 。 阿 诺 德 可 以 通过 减 去 共享 密 钥 提 取消 息 7， 但 伊 


天 却 不 能 。 


现在 ， 只 要 阿诺德 能 正确 地 记得 房屋 门牌 号 ， 他 残 可 以 通过 将 你 告诉 他 的 总 数 


329 和 房屋 门牌 号 相 减 ， 得 到 信用 卡 卡号 。 他 用 329 减 去 322 得 7， 这 也 是 你 试图 向 他 
传输 的 信用 卡 卡 号 。 同 时 ， 伊 关 却 不 知道 信用 卡 卡 号 是 多 少 ， 尽 管 她 能 听 到 你 跟 阿 


诺 德 说 的 每 个 词 。 上 图 显示 了 整个 过 程 。 


为 什么 这 种 方法 能 奏效 ? 因为 你 和 阿诺德 有 一 样 东 西 ， 也 就 是 计算 机 科学 家 们 
所 谓 的 共享 密 钥 : 数字 322。 因 为 你 俩 都 知道 这 个 数字 ， 但 伊 天 却 不 知道 ， 你 可 以 使 
用 这 个 共享 密 钥 秘密 地 传输 任何 数字 ， 只 要 和 共享 密 钥 相 加 ， 说 出 总 数 ， 让 另 一 方 
减 去 共享 密 钥 即 可 。 听 到 总 数 对 伊美 没有 任何 用 处 ， 因 为 她 不 知道 要 减 去 哪个 数 


= 


子 。 


不 管 你 是 否 相信 ,如 果 理 解 了 这 个 简单 的 “ 相 加 把 戏 ” 一 一 将 一 个 共享 密 钥 和 
如 一 张 信 用 卡 的 卡号 这 类 私人 消息 相 加 一 一 你 就 理解 了 互联 网 上 绝 大 多 数 加 密 真正 
的 运作 原理 ! 计算 机 不 断 地 运用 着 这 一 把 戏 ， 但 要 真正 实现 保密 性 ， 还 有 一 些 细节 


需要 注意 。 





首先 ， 计 算 机 使 用 的 共享 密 钥 要 比 房屋 门牌 号 322 长 很 多 。 如 果 密 钥 太 短 ， 任 何 
窃听 对 话 的 人 都 可 以 试 遍 所 有 可 能 性 。 比 如 ， 假 设 我 们 使 用 相 加 把 戏 ， 用 一 个 3 位 数 
房屋 门牌 号 来 加 密 一 个 真正 的 16 位 数 信 用 卡 卡 号 。 注 意 ，3 位 数 房屋 门牌 号 有 999 种 
可 能 ， 那 么 像 伊 天 这 样 穷 听 了 对 话 的 敌人 可 以 列 出 一 个 包含 所 有 999 个 可 能 数字 的 
表 ， 而 其 中 肯定 有 一 个 数字 是 信用 卡 卡 号 。 而 计算 机 几乎 不 用 费 什么 时 间 束 能 试 声 
999 个 信用 卡 卡 号 ， 因 此 为 了 共享 密 钥 能 起 作用 ， 我 们 需要 用 远 长 于 3 位 数 的 数字 来 
作为 共享 密 钥 。 

事实 上 ， 当 你 听 到 某 种 加 密 是 一 个 特定 位 数 的 数字 ， 比 如 “128 位 加 密 ”， 这 实 
际 上 说 的 是 共享 密 钥 的 长 度 。 共 享 密 钥 通 常 被 称 为 “ 钥 ”， 是 因为 它 能 用 于 解锁 
或 “解密 ”一 条 消息 。 如 果 你 解 开 了 钥匙 数位 的 36%， 这 也 吏 告 诉 了 你 钥匙 的 大 致 数 


位 。 因 为 128 的 36% 大 约 是 38， 我 们 融 知 道 128 位 加 密使 用 的 钥匙 是 一 个 38 位 的 
数 ! 车 。 一 个 38 位 数 要 比 18 的 36 次 方 还 要 大 ， 而 又 因为 这 需要 任何 现存 的 计算 机 花费 
数 十 亿 年 时 间 来 试 声 这 么 多 可 能 性 ， 一 个 38 位 数 的 共享 密 钥 被 认为 非常 安全 。 


这 个 简单 相 加 把 戏 要 在 现实 生活 中 奏效 还 要 克服 一 个 困难 : 加 法 得 出 的 结果 能 
用 于 统计 分 析 ， 这 意味 着 一 些 人 能 通过 分 析 大 量 你 的 加 密 消息 来 得 到 钥 怀 。 相 反 ， 
被 称 为 “分 块 密码 ” (block cipher ) 的 现代 加 密 技术 使 用 了 相 加 把 戏 的 变 体 。 


首先 ， 长 消息 被 分 解 成 固定 大 小 ( 通常 是 16~15 个 字母 ) 的 小 “ 块 ”。 其 次 ， 和 
简单 地 将 一 块 消息 与 钥匙 相 加 不 同 的 是 ， 每 个 块 都 会 根据 一 系列 固定 规则 转 损 数 
次 。 这 些 规 则 类 似 于 加 法 ， 但 会 让 消息 和 钥匙 更 紧密 地 混合 在 一 起 。 比 如 ， 规 则 可 
以 是 “将 钥匙 的 前 半 部 分 和 这 块 消息 的 后 半 部 分 相 加 ， 倒置 结果 ， 再 将 钥匙 的 第 二 
部 分 和 这 块 消息 的 前 半 部 分 相 加 " 不 过 在 现实 中 ， 这 些 规则 要 更 加 复杂 一 些 。 
现代 分 块 密码 基本 上 会 进行 .6“ 轮 ”或 更 多 类 似 操作 ， 即 操作 列表 会 被 反复 应 用 。 
在 转换 的 轮 数 足够 多 时 ， 原 始 消 息 会 真正 地 混合 好 ， 并 能 抵御 统计 攻击 ， 但 任何 知 
道 钥匙 的 人 都 能 用 相反 的 步骤 运行 所 有 操作 ， 以 获得 最 初 的 解密 的 消息 。 





在 写作 本 书 时 ， 最 流行 的 分 块 密码 是 高 级 加 密 标 准 ( Advanced Encryption 
standard “) ， 或 称 AES。AES 能 配合 多 种 不 同 配置 使 用 ， 但 标准 配置 是 使 用 16 个 字 
母 的 块 ， 配 备 128 位 密 钥 ， 进 行 16 轮 混合 操作 。 


公开 建立 一 个 共享 密 钥 


到 目前 为 止 ， 一切 情况 良好 。 我 们 已 经 知道 互联 网 上 绝 大 多 数 加 密 技术 的 运作 
原理 : 将 消息 分 成 块 ， 使 用 加 法 把 戏 变 体 加 密 每 个 块 。 但 这 是 加 密 简单 的 地 方 。 难 


氮 企 于 一 开始 要 建立 一 个 共享 密 铀 。 在 上 面 的 例子 中 ， 在 你 和 阿诺德 及 伊 天 待 的 房 
间 里 ， 其 实 我 们 做 点 了 次 一 一 我 们 利用 了 你 和 阿诺德 从 小 玩 到 大 的 事实 ， 因 此 阿 诺 
德 知道 共享 密 钥 ( 你 家 的 房屋 门牌 号 ) 而 伊美 不 可 能 知道 。 如 果 你 、 阿 诺 德 和 伊美 
都 是 陌生 人 ， 我 们 怎么 玩 同 样 的 洲 戏 ? 你 有 没有 办 法 和 阿诺德 建立 一 个 伊 关 不 知道 
的 共享 密 钥 ?( 记 住 ， 不 能 作 次 一 一 你 不 能 低 声 跟 阿诺德 说 任何 事情 或 给 阿诺德 一 
张 伊 天 看 不 到 的 纸 条 。 所 有 沟通 都 必须 公开 。 ) 


乍 一 看 ， 要 做 到 这 一 点 似乎 不 可 能 ， 但 还 是 有 个 精巧 的 办 法 能 解决 这 个 问题 。 
计算 机 科学 家 们 称 这 一 解决 方案 为 迪 菲 一 赫 尔 曼 密 钥 交 换 ( Diffie-Hellman key 
exchange ) ， 但 我 们 把 它 称 作 颜料 混合 把 戏 ( paint-mixing trick ) 。 


颜料 混合 把 戏 


要 理解 这 一 把 戏 ， 我 们 先 不 管 传输 信用 卡 卡号 的 事 ， 而 是 假设 你 想 要 分 享 的 密 
钥 是 一 种 特殊 颜色 的 颜料 。 ( 的 确 ， 这 有 点 诡 异 ， 但 我 们 很 快 会 看 到 ， 用 这 种 方法 
来 思考 这 个 问题 非常 有 用 。 ) 现在 假设 你 和 阿诺德 、 伊 天 待 在 一 个 房间 内 ， 每 人 都 
有 大 量 不 同 的 颜料 棋 。 你 们 都 拥有 相同 的 颜色 选择 一 一 有 多 种 不 同 颜色 ， 每 个 人 都 
拥有 多 桶 相同 颜色 的 颜料 。 这 样 融 不 仔 在 用 完 颜料 的 问题 了 。 每 一 桶 颜料 都 清楚 地 
标示 了 其 颜色 ， 因 此 在 具体 指导 其 他 人 混合 不 同 颜 色 的 颜料 上 束 很 容易 了 : 你 只 要 
说 些 如 “将 一 桶 “天蓝 色 ”颜料 和 六 桶 “ 淡 黄 褐色 ”颜料 以 及 五 桶 “用 绿色 ”颜料 
混合 在 一 起 ”的 话 即 可 。 但 在 每 一 块 已 知 的 色 板 ( shade ) 上 都 有 上 百 或 上 干 种 颜 
色 ， 因 此 ， 不 可 能 只 通过 看 颜色 融 知 道 其 中 混合 了 哪些 具体 的 颜色 。 而 且 也 不 可 能 
通过 试镜 友 现 混合 颜色 中 加 入 了 哪些 具体 的 颜色 ， 因 为 可 以 兰 试 的 颜色 太 多 了 。 


现在 要 改变 一 下 游戏 规则 。 你 们 三 人 各 占据 房屋 的 一 角 ， 每 个 角 沙 都 出 于 隐私 


考虑 加 以 屏障 ， 你 可 以 在 其 中 人 存放 颜料 ， 在 其 他 人 看 不 到 的 情况 下 混合 颜料 。 但 沟 
通 规则 和 之 前 一 样 : 在 你 、 阿 庄 德 和 伊 天 之 间 的 任何 沟通 都 必须 公开 。 你 不 能 邀请 
阿诺德 进入 你 的 私人 混合 区 域 ! 另 一 条 规则 规定 了 你 分 享 颜料 混合 配方 的 方式 。 你 
可 以 给 屋内 其 他 人 一 批 颜 料 ， 但 只 能 把 颜料 放 到 房间 中 央 的 地 板 上 ， 等 其 他 人 来 捡 
起 它 。 这 也 意味 着 ， 你 永远 也 不 能 确定 谁 会 捡 起 你 放 的 颜料 。 最 好 的 办 法 是 ， 为 每 
个 人 提供 足够 多 的 颜料 ， 然 后 在 房间 中 央 留 下 数 批 分 开 的 颜料 。 这 样 ， 任 何 想 要 你 
颜料 的 人 都 可 以 拿 取 。 这 条 规则 其 实 只 是 所 有 沟通 都 必须 公开 的 补充 : 如 果 你 给 了 
阿 庄 德 某 种 混合 颜料 ， 却 没有 给 伊 天 ， 你 融和 阿 诸 德 进行 了 某 种 “私密 ”沟通 ， 这 
违反 了 规则 。 

记 住 ， 这 个 颜料 混合 游戏 则 在 解释 如 何 建 立 一 个 共享 密 钥 。 在 这 时 ， 你 也 许 在 


想 混 合 颜 料 和 加 密 有 什么 关系 ， 请 不 要 着 急 。 你 将 了 解 到 一 个 令 人 惊奇 的 把 戏 ， 计 
机 使 用 这 一 把 戏 在 像 互联 网 这 样 的 公共 场合 建立 共享 密 钥 ! 


据 


首先 ， 我 们 要 知道 这 个 游戏 的 目标 。 目 标 是 让 你 和 阿诺德 都 能 制作 相同 的 竟 合 


德 建立 了 一 种 “共享 的 秘密 混合 颜料 ”。 你 可 以 随心 所 欲 地 进行 尽 可 能 多 的 公开 对 
话 ， 你 也 可 以 携 市 颜料 桶 多 次 往返 于 房间 中 央 及 你 的 私人 混合 区 域 乙 间 。 


现在 我 们 要 开始 探访 公 钥 加 密 背 后 精巧 思想 的 旅程 了 。 我 们 的 颜料 混合 把 戏 分 
为 四 步 : 


第 一 步 : 你 和 阿诺德 各 目 选 择 一 种 “私人 颜色 ”。 


你 的 私人 颜色 与 你 最 终 将 制造 的 共享 秘密 混合 颜料 不 同 ， 但 它 将 是 共享 秘密 混 


合 颜 料 的 成 分 之 一 。 你 可 以 选择 任何 一 种 颜色 作为 私人 颜料 ， 但 你 必须 记 住 这 种 颜 
色 。 很 显然 ， 你 的 私人 颜色 几乎 肯定 会 和 阿诺德 的 私人 颜色 不 同 ， 因 为 可 供 选 择 的 
颜色 太 多 了 。 假 设 你 选 了 淡 紧 色 作 为 私人 颜色 ， 阿 庄 德 选 了 深 红 色 作为 入 人 颜色 ，。 


第 二 步 : 选择 一 种 新 的 不 同 的 颜色 成 分 并 公开 宣布 ， 我 们 称 这 种 颜色 
为 “公开 颜色 ”。 


和 之 前 一 样 ， 你 可 以 选择 任何 颜色 。 假 设 你 宣布 的 公开 颜色 是 雏菊 黄 。 注 意 只 
能 有 一 种 公开 颜色 ( 而 不 是 你 和 阿诺德 各 选 一 种 公开 颜色 ) ， 伊 天 目 然 也 知道 这 种 
公开 颜色 ， 因 为 你 公开 宣布 了 。 


第 三 步 : 你 和 阿诺德 各 用 一 桶 公开 总 色 和 一 桶 私人 颜色 制造 一 种 混合 颜 
色 。 这 丈 是 你 的 “公开 一 私人 混合 颜色 ”。 


很 显然 ， 阿 诺 德 的 公开 一 私人 混合 颜色 会 和 你 的 不 同 ， 因 为 他 的 私人 颜色 和 你 
的 不 同 。 如 果 继 续 使 用 上 面 的 例子 ， 你 的 公开 一 私人 混合 颜色 会 包含 一 桶 淡 紫 色 和 
一 桶 锥 菊 黄 ， 而 阿诺德 公开 一 私人 竟 合 颜色 会 包 合 一 桶 深 红色 和 一 桶 锥 菊 黄 。 


到 这 时 ， 你 和 阿诺德 会 想 给 彼此 公开 一 私人 混合 颜色 的 样品 ， 但 记 住 ， 直 接 给 
房间 中 一 个 人 混合 颜料 是 违反 规则 的 。 给 其 他 人 一 种 混合 颜色 的 唯一 方法 是 制作 数 
批 该 种 颜料 ， 并 把 它们 放 到 房间 中 央 ， 以 便 任 何 想 要 的 人 拿 取 。 这 也 正 是 你 和 阿 诺 
德 所 做 的 : 你 们 俩 都 制作 数 批 公开 一 私人 混合 颜色 ， 并 把 它们 放 到 房间 中 央 。 如 果 
伊 关 想 要 的 话 ， 她 可 以 偷 走 一 到 两 批 ， 但 我 们 很 快 束 会 了 解 到 ， 这 些 颜料 对 伊美 没 
有 任何 用 处 。 下 页 的 图 显示 了 颜料 混合 把 戏 第 三 步 之 后 的 情况 。 


现在 到 达 关 键 点 了 。 如 果 在 这 时 仔细 想 一 会 儿 ， 你 可 能 会 知道 最 后 的 把 戏 会 让 
你 和 阿诺德 制造 出 同一 种 共享 的 秘密 混合 颜色 ， 而 不 让 伊 天 知道 秘密 。 答 案 如 下 : 


站 





=: 站 如 亲友 
芽 澡 颜色 插 全 颜色 





X | 阿诺德 





你 的 私人 颜色 阿诺德 的 私人 颜色 
颜料 混合 把 戏 第 三 步 : 任何 想 要 的 人 都 可 以 拿 取 公 开 一 私人 混合 颜色 


第 四 步 : 你 选取 一 批 阿诺德 的 公开 一 私人 混合 颜色 ， 拿 回 自己 的 角落 。 现 
在 加 入 一 桶 私人 颜色 。 同 时 ， 阿 诺 德 选取 一 批 你 的 公开 一 私人 混合 颜色 ， 拿 回 


他 的 角 沙 ， 在 那里 他 再 加 入 一 桶 他 的 私人 颜色 。 


神奇 吧 ， 你 俩 制作 了 同样 的 混合 颜色 ! 让 我 们 来 检验 一 下 : 你 将 自己 的 私人 颜 
色 ( 淡 紫 色 ) 加 入 阿诺德 的 公开 一 私人 混合 颜色 ( 深 红色 和 锥 菊 黄 ) ， 得 到 的 最 终 
混合 颜色 是 : 一 桶 淡 紫 色 、 一 桶 深 红色 和 一 桶 锥 菊 黄 。 阿 庄 德 最 终 得 到 的 混合 赢 色 
呢 ? 他 将 目 己 的 私人 颜色 ( 深 红色 ) 加 入 你 的 公开 一 私人 混合 颜色 ( 淡 紫 色 和 欠 菊 
黄 ) ， 得 到 的 最 终 混合 颜色 是 : 一 桶 深 红色 、 一 桶 淡 紫 色 和 一 桶 雏菊 黄 。 这 正和 你 
得 到 的 最 终 混 合 颜色 一 样 ， 也 恰好 是 一 种 共享 秘密 混合 颜色 。 下 页 的 图 显示 了 颜料 


混合 把 戏 最 后 一 步 的 情形 。 





阿诺德 的 私人 


你 的 私人 


那 伊 关 呢 ? 为 什么 她 不 能 制作 一 份 这 种 共享 秘密 混合 颜色 呢 ? 原因 是 她 不 知道 
你 或 阿诺德 的 私人 颜色 ， 而 她 至 少 需要 其 中 一 种 来 制作 共享 秘密 混合 颜色 。 你 和 阿 
诺 德 打败 了 她 ， 因 为 你 从 未 在 房间 中 央 公开 过 自己 的 私人 颜色 。 相 反 ， 你 在 公开 前 
将 目 己 的 私人 颜色 和 公开 颜色 混合 在 一 起 ， 而 伊 天 没有 办 法 “分 开 ” 公 开 一 私人 混 


合 颜色 ， 也 残 不 能 获得 其 中 一 种 私人 颜色 的 纯正 样本 。 


因此 ， 伊 天 只 能 获取 两 种 公开 一 私人 混合 颜色 。 如 果 她 将 一 桶 你 的 公开 一 私人 
混合 颜色 和 一 桶 阿诺德 的 公开 一 私人 混合 颜色 混合 在 一 起 ， 结 果 是 包含 了 一 桶 深 红 
色 、 一 桶 淡 紫 色 和 两 桶 锥 菊 黄 。 换 句 话说 ， 和 共享 秘密 混合 颜色 相 比 ， 伊 美的 混合 
颜色 多 了 一 份 锥 菊 黄 。 她 的 混合 颜色 太 黄 了 ， 而 因为 没有 办 法 “分 开 ” 颜 料 ， 她 不 
能 移 除 多 余 的 黄色 。 你 也 许 会 想 ， 伊 天 可 以 通过 加 入 更 多 深 红色 和 淡 紫 色 来 达到 目 
的 ， 但 要 记 住 ， 伊 关 不 知道 你 的 私人 颜色 ， 因 为 她 不 会 知道 这 些 颜色 还 需要 加 入 的 
颜色 。 她 只 能 加 入 深 红色 配 锥 菊 黄 的 组 合 或 淡 紧 色 配 锥 箱 黄 的 组 合 ， 而 这 会 导致 她 
的 混合 颜色 太 黄 。 


如 果 你 理解 了 颜料 混合 把 戏 ， 你 就 会 理解 计算 机 在 互联 网 上 建立 共享 密 钥 的 核 
心机 制 。 当 然 ， 它 们 并 不 真 的 使 用 颜料 。 计 算 机 使 用 数字 ， 而 要 混合 数字 ， 它 们 会 
运用 数学 。 计 算 机 实际 使 用 的 数学 并 不 会 大 复杂 ， 但 也 复杂 到 让 人 第 一 眼看 上 去 就 
会 感到 困惑 。 因 此 ， 作 为 理解 共享 密 钥 如 何在 互联 网 上 建立 的 下 一 步 ， 我 们 将 用 到 
一 些 “ 盆 六 ”数学 。 真 正 的 要 扣 在 于 ， 要 将 头 料 混合 把 戏 转化 成 数字 ， 我 们 需要 一 
种 单 向 操作 ( one-way action ) : 可 以 做 一 些 事 情 ， 但 不 能 取消 做 过 的 事 。 颜 料 混 
合 把 戏 中 的 单 向 操作 是 “混合 颜料 ”。 将 一 些 颜料 混合 起 来 形成 一 种 新 颜色 很 容 
易 ， 但 要 “分 开 ” 它 们 并 获得 原来 的 颜料 则 不 可 能 。 这 也 是 为 什么 着 料 混 合 是 单 向 
操作 的 原因 。 


我 们 在 前 面 提 到 过 ， 将 会 用 到 一 些 伪 六 数学。 下面 束 是 我 们 要 伪 沪 的 : 将 两 个 
数 相 乘 是 一 项 单 向 操作 。 我 敢 肯 定 ， 你 已 经 意识 到 了 ， 这 绝对 是 个 借口 。 乘 法 的 反 


面 是 除法 ， 只 需要 用 除法 残 能 惊奇 地 取消 乘法 。 比 如 ， 如 果 我 们 从 数字 5 开始 ， 然 后 
乘 以 7， 得 到 35。 要 取消 这 个 乘法 很 容易 ， 只 要 从 35 开 始 ， 除 以 7 融 可 以 了 。 这 会 得 
到 我 们 一 开始 时 的 数字 5。 


但 除 此 以 外 ， 我 们 将 坚持 使 用 这 一 伪 委 ， 在 你 、 阿 诡 德 和 伊 天 之 间 玩 另 一 个 游 
戏 。 这 一 次 ， 我 们 将 假设 你 们 都 知道 如 何 将 数 相 乘 ， 但 你 们 都 不 知道 如 何 用 一 个 数 
除 以 另 一 个 数 。 目 标 和 前 面 的 游戏 几乎 一 样 : 你 和 阿诺德 试图 建立 一 个 共享 密 钥 ， 
但 这 次 共享 密 铀 将 是 一 个 数 ， 而 非 一 种 颜料 。 此 前 的 沟通 规则 也 适用 : 所 有 联系 必 
须 公 开 进 行 ， 这 样 伊 天 融 能 听 到 你 和 阿 话 德 之 间 的 任何 对 话 。 


好 ， 现 在 我 们 要 做 的 事情 瓯 是 将 颜料 混合 把 戏 转换 成 数字 : 


第 一 步 : 和 选择 一 种 “私人 颜色 ”不 同 的 是 ， 你 和 阿诺德 选择 一 个 “私人 


> 


假设 你 选择 了 4 ,阿诺德 选择 了 65。 现在 回想 颜料 混合 把 戏 剩余 的 步骤 : 宣布 
开颜 色 ,制作 公开 一 私人 混合 颜色 ,公开 好 将 你 的 公开 一 私人 混合 颜色 与 阿诺德 的 
公开 一 私人 混合 颜色 交换 ， 最 后 将 你 的 私人 颜色 加 入 阿诺德 的 公开 一 私人 混合 阁 
色 ,以 获得 共享 秘密 颜色 。 要 理解 如 何 将 这 些 步 台 转 换 成 数字 ， 并 用 乘法 作为 单 和 
操作 取代 颜料 混合 也 不 至 于 太 难 。 在 继续 往 下 读 之 前 ， 花 几 分 钟 看 看 你 能 否 自行 理 
解 这 个 例子 . 

遵照 这 个 解决 方案 并 不 太 难 ; 你 和 阿诺德 都 选择 了 自己 的 私人 数字 ( 4 和 6 ) ， 
一 上 


下 一 步 瓯 是 : 


第 二 步 : 你 们 其 中 一 个 人 宣布 “公开 数字 ” ( 取代 颜料 混合 把 戏 中 的 公开 
颜色 ) 。 


假设 你 选择 了 7 作为 公开 数字 。 


颜料 混合 把 戏 的 下 一 步 是 制作 一 份 公开 一 私人 混合 颜色 。 但 我 们 已 经 决定 ， 用 
将 数字 相 乘 来 代 蔡 混合 颜料 。 因 此 ， 你 要 做 的 区 是 : 


第 三 步 : 将 你 的 私人 数字 ( 4 ) 和 公开 数字 ( 7 ) 相 乘 ， 得 到 “公开 一 私人 
数字 ”28。 


你 可 以 公开 地 宣布 ， 这 样 阿诺德 和 伊 天 融 都 知道 了 你 的 公开 一 私人 数 子 是 
28 ( 无 须 再 携 市 颜料 桶 了 ) 。 阿 诺 德 对 自己 的 私人 数字 做 了 同样 的 事 : 他 将 自己 的 
私人 数字 和 公开 数字 相 乘 ， 并 宣布 他 的 公开 一 私人 数字 是 42。 下 面 的 图 显示 了 整个 


流程 到 达 这 一 点 的 情形 。 





你 的 公开 一 私人 数字 。 阿 诗 德 的 公开 一 术 人 数字 





阿诺德 





a i 
1 量 
9 上 F 
时 2 


你 的 私人 阿诺德 的 和 
数字 数字 


还 记得 颜料 混合 把 戏 的 最 后 一 步 吗 ? 你 拿 走 阿诺德 的 公开 一 私人 混合 颜色 ， 加 
入 一 桶 你 的 私人 颜色 ， 以 制作 共享 秘密 颜色 。 这 里 发 生 的 事情 也 一 模 一 样 ， 用 乘法 
代 蔡 颜料 混合 : 


第 四 步 : 你 把 阿诺德 的 公开 一 私人 数字 ( 42 ) 和 你 的 私人 数字 ( 4 ) 相 乘 ， 


结果 是 共享 秘密 数字 168。 


同时 ， 阿 诺 德 用 你 的 公开 一 私人 数字 28 和 他 的 私人 数字 6 相 乘 ， 并 令 人 惊讶 地 得 


到 了 共享 秘密 数字 168。 最 终结 果 显示 在 下 图 中 。 









\ (6x7) 


你 的 公开 一 私人 数字 ”阿诺德 的 公开 一 私人 数字 





阿诺德 


<— [6 
阿诺德 的 私人 
灼 和 


共享 密 钥 
数字 


数字 混合 把 戏 第 四 步 : 只 有 你 和 阿诺德 能 得 到 共享 密 钥 数字 ， 通 过 将 途中 箭头 所 示 的 数字 相 乘 。 





事实 上 ， 当 你 用 正确 的 方法 思考 时 ， 这 一 点 都 不 令 人 怀 讶 。 阿 诺 德 和 你 都 制作 
出 了 相同 的 共享 秘密 颜色 的 原因 是 ， 你 将 相同 的 三 种 原始 颜色 混合 在 了 一 起 ， 但 却 


使 用 不 同 的 顺序 : 你 俩 各 自 保 留 了 一 种 私人 颜色 ， 把 它 和 由 其 他 两 种 颜料 组 成 的 公 
开 混合 颜料 组 合 在 一 起 。 同 样 的 事 也 发 生 在 数字 上 。 你 俩 通过 将 同样 的 三 个 数 4、6 
和 7 相 乘 ， 得 到 了 相同 的 共享 密 铀 。 ( 你 可 以 自己 查证 ,4 x 6 x 7 = 168。 ) 但 
你 之 所 以 能 达到 这 一 目标 ， 是 通过 用 私人 数字 4 和 由 6 乘 7 得 出 的 公开 混合 数字 “ 混 
合 ” ( 相 乘 ) 得 出 的 ， 而 阿诺德 也 宣布 了 这 个 混合 数字 。 另 一 方面 ， 阿 诺 德 通过 用 
私人 数字 6 和 由 4 乘 7 得 出 的 公开 混合 数字 “混合 ” ( 相 乘 ) 得 出 共享 密 钥 ， 而 你 也 宣 


布 了 这 个 混合 数字 。 


就 和 我 们 在 颜料 混合 把 戏 中 做 的 一 样 ， 让 我 们 来 验证 伊美 不 能 得 到 共享 密 钥 。 
每 个 公开 一 私人 数字 的 值 在 宣布 时 都 能 被 伊美 听 到 。 她 听 到 你 说 28， 阿 诺 德 说 42。 
她 还 知道 公开 数字 是 7。 因 此 ， 如 果 伊 美 知道 如 何 做 除法 ， 她 就 能 马上 知道 你 所 有 的 
密 钥 ， 只 需要 观察 到 28 -+ 7 = 4 和 42 + 7 = 6 即 可 。 而 她 可 以 继续 通过 计算 4 x 
6 x 7 = 168 算 出 共享 密 钥 。 不 过 ， 幸运 的 是 ， 我 们 在 游戏 中 使 用 的 是 伪装 数学 : 
我 们 假设 乘法 是 一 种 单 向 操作 ， 因 此 伊美 不 知道 如 何 相 除 。 于 是 她 被 数字 28、42 和 7 
难 住 了 。 她 可 以 将 其 中 一 些 数 相 乘 ， 但 结果 和 共享 密 钥 无 关 。 比 如 ， 如 果 她 将 28 x 
42 = 1 176， 那 就 大 错 特 错 了 。 就 和 颜料 混合 游戏 中 她 的 结果 太 黄 了 一 样 ， 在 这 
里 ， 她 的 结果 中 有 太 多 7。 共 享 密 钥 中 只 有 一 个 7， 因 为 168 = 4x6x7。 但 伊美 想 要 
破解 密 钥 的 要 素 中 有 两 个 7， 因 为 1 176 = 4 x 6 x 7 x 7。 而 且 她 还 没有 办 法 去 
掉 多 余 的 7， 因 为 她 不 知道 如 何 做 除法 。 


现实 生活 中 的 颜料 混合 把 戏 


我 们 现在 已 经 讲 完了 计算 机 在 互联 网 上 建立 共享 密 钥 所 需 的 所 有 基本 概念 。 使 
用 数字 的 颜料 混合 机 制 的 唯一 缺陷 是 ， 它 使 用 的 是 “ 伪 和 数学 ”， 在 其 中 我 们 假设 


没有 任何 一 方 能 做 除法 。 要 完成 整个 流程 ， 我 们 需要 一 个 在 现实 生活 中 容易 做 到 
(比如 颜料 混合 ) ， 但 在 实际 中 又 不 可 能 取消 ( 比如 分 离 颜料 ) 的 数学 操作 。 当 计 
算 机 在 现 实生 活 中 进行 这 些 操作 时 ， 混 合 操作 丈 是 离散 指数 ( discrete 
exponentiation ) ， 而 分 离 操作 则 被 称 为 离散 对 数 ( discrete logarithm ) 。 由 
于 还 没有 一 种 方法 能 让 计算 机 高 效 地 计算 离散 对 数 ， 离 散 指 数 束 成 了 我 们 寻找 的 那 
类 单身 操作。 要 恰当 地 解释 离散 指数 ， 我 们 需要 两 个 简单 的 数学 概念 。 我 们 还 需要 
写 几 个 公式 。 如 果 你 不 喜欢 公式 ， 请 直接 忽略 余下 的 部 分 一 一 你 几乎 了 解 了 和 这 个 
主题 有 关 的 所 有 东西 。 另 外 ， 如 果 你 真 的 想 知 道 计 算 机 如 何 做 这 件 神奇 的 事 ， 接 着 
往 下 读 。 





我 们 需要 的 第 一 个 重要 的 数学 概念 被 称 为 钟 算 ( clock arithmetic ) 。 这 倒是 
我 们 都 熟悉 的 东西 : 钟 上 有 12 个 数字 ， 每 次 当时 针 路 过 12 时 ， 都 会 从 1 开始 重新 计 
数 。 一 个 从 18 点 钟 开始 、 持 续 4 小 时 的 活动 会 在 2 点 钟 结束 ， 也 就 是 说 ， 在 这 个 12 小 
时 钟 系统 中 ，16+4 = 2。 在 数学 中 ， 钟 算 也 是 这 样 运行 的 ， 除 了 两 个 细节 : (1 ) 
钟 的 大 小 可 以 是 任何 数 ( 而 非 一 个 普通 的 钟 上 熟悉 的 12 个 数字 ) ，( 2 ) 数字 从 e 而 
不 是 从 1 开始 计数 。 


下 面 图 中 的 例子 用 的 是 大 小 为 7 的 钟 。 注 意 ， 钟 上 的 数字 是 e、1、2、3、4、5 
和 6。 用 钟 大 小 为 7 的 钟 做 钟 算 ， 只 要 像 平 单一 样 将 数字 相 加 相 乘 即 可 ， 不 过 不 管 结 
果 如 何 ， 你 只 要 取 除 以 7 所 得 的 余数 即 可 。 计 算 12 + ”6， 我 们 首先 像 平 党 一 样 相 
加 ， 得 到 18。 然 后 我 们 注意 到 18 中 有 两 个 7 ( 即 14 ) ， 余 4。 因 此 最 终 答 案 是 : 


12 + 6 = 4( 钟 大 小 为 7 ) 


在 下 面 的 例子 中 ， 我 们 将 钟 大 小 调 为 11。 ( 稍 后 将 讨论 到 ， 现 实 应 用 中 的 钟 大 
小 要 大 很 多 。 我 们 使 用 小 的 钟 大 小 是 为 了 让 解释 尽 可 能 简单 。 ) 在 将 结果 除 以 11 后 


取 余 并 不 太 难 ， 因 为 11 的 倍数 都 是 像 66 和 88 这 样 重复 的 数 。 下 面 是 几 个 用 钟 大 小 为 
11 进 行 计 算 的 例子 : 


7+9+8=24= 2 ( 钟 大 小 为 11) 


8 x 7= 56 = 1 ( 钟 大 小 为 11) 





我 们 需要 的 第 二 个 数学 概念 是 窜 钞 数 ( power notation ) 。 这 个 概念 一 点 也 不 
人 花哨 : 融 是 写 下 许多 相同 数字 相 乘 的 快捷 方法 。 和 写 下 6 x 6 x 6 x 6 不 同 的 是 ， 
你 可 以 写成 6%， 这 束 是 指 6 乘 以 本 身 4 次 。 


你 可 以 将 虹 立 数 和 钟 算 结 合 起 来 。 比 如 : 


34=3x3x3x3= 81=4 ( 钟 大 小 为 11) 


77=7&x 7 = 49 


5 ( 钟 大 小 为 11 ) 


下 页 的 表格 显示 了 钟 大 小 为 11 时 数字 2 
的 例子 中 非常 有 用 


们 来 看 看 最 后 一 栏 


、3 和 6 的 前 16 个 恬 。 这 在 我 们 将 要 研究 
。 在 继续 深入 前 ， 请 你 确保 目 己 认可 这 张 表格 的 生成 方式 。 让 我 
。 这 一 栏 的 第 一 项 是 6， 也 丈 是 6*。 下 一 项 代表 6?， 即 36， 但 由 于 


我 们 使 用 的 钟 大 小 为 11，36 比 33 大 3， 因 此 这 一 项 是 3。 要 计算 这 一 栏 的 第 三 项 ， 你 
也 许 会 认为 我 们 要 计算 63 = 6 x 6 x 6, 但 有 个 更 简单 的 方法 。 我 们 已 经 用 自己 
感 兴趣 的 钟 大 小 计算 了 6“， 结 果 是 3。 要 得 到 6:， 我 们 只 需要 将 先前 的 结果 乘 6。 也 
束 是 3 x 6 = 18 = 7( 钟 大 小 为 11 ) 。 下 一 项 是 7 x 6 = 42 = 9 ( 钟 大 小 为 
11 ) ， 依 此 类 推 ， 直到 该 栏 最 后 一 项 。 


最 后 ， 我 们 终于 要 准备 建立 一 个 计算 机 在 现实 生活 中 使 用 的 共享 密 铀 了 。 和 之 
前 一 样 ， 你 和 阿诺德 将 尝试 分 享 一 个 密 钥 ， 而 伊 关 窃 听 并 试图 算出 密 钥 。 


第 一 步 : 你 和 阿诺德 各 上 自 单独 选择 一 个 私人 数字 


(OO =~lOOm 必 wh 产 三 


9 
9 
二 
] 
3 
9 
+ 
] 


| 
OO 





这 张 表 显示 了 钟 大 小 为 11 时 数字 2、3 和 6 的 前 16 个 窜 。 正 如 上 文 所 解释 的 ， 每 个 项 都 能 通过 一 些 非 常 简单 的 算术 
从 上 一 项 中 算出 。 

为 保证 数学 尽 可 能 简单 ， 我 们 将 在 这 个 例子 中 使 用 非常 小 的 数字 。 因 此 ， 假 设 
你 选择 8 作为 私人 数字 ， 而 阿诺德 选择 9。 这 两 个 数字 -8 和 9 一 都 不 是 共享 密 
钥 ， 而 是 像 你 在 颜料 混合 把 戏 中 选择 的 私人 颜色 ， 这 些 数字 将 被 用 作 “混合 ”一 个 


共享 密 钥 的 成 分 。 


第 二 步 : 你 和 阿诺德 公开 融 两 个 公开 数字 达成 一 致 : 钟 大 小 ( 本 例 中 使 用 
11 ) 和 另 一 个 被 称 为 基数 的 数字 ( 选 2 为 基数 ) 。 





这 些 公开 数字 一 11 和 2 一 一 像 公开 颜色 一 样 ， 你 和 阿诺德 在 颜料 混合 把 戏 一 
开始 束 对 此 达成 了 一 致 。 注 意 ， 颜料 混合 类 比 与 本 例 有 点 不 同 : 在 颜料 混合 中 ， 我 
们 只 需 一 种 公开 颜色 ， 而 在 这 个 例子 中 ， 我 们 需要 两 个 公开 数字 。 


第 三 步 : 通过 使 用 景 符号 和 钟 算 ， 你 和 阿诺德 各 自 将 自己 的 私人 数字 和 公 
开 数 字 相 混 ， 分 别 得 到 一 个 公开 一 私人 数字 ( public-private number ， 
PPN ) 。 
具体 来 说 ， 混 合 是 按照 公式 来 完成 的 : 

PPN = base 私 人 数字 ( 钟 大 小 ) 


这 个 公式 用 文字 写 出 来 可 能 会 显得 有 点 诡 异 ， 但 在 实际 中 却 很 简单 。 在 我 们 的 
例子 中 ， 我 们 能 通过 参考 上 一 页 的 表格 来 得 出 答案 : 


你 的 PPN = 28 = 3 ( 钟 大 小 为 11 ) 
阿诺德 的 PPN = 2? = 6 ( 钟 大 小 为 11 ) 


在 这 一 步 之 后 ， 你 可 以 在 下 页 的 图 中 查看 这 一 步 。 这 些 公开 一 私人 数字 正 相当 
于 你 在 颜料 混合 把 戏 第 三 步 中 制作 的 “公开 一 私人 混合 颜色 ”。 在 那 一 步 中 ， 你 将 
一 柄 公开 颜色 和 一 部 分 你 的 私人 颜色 相 混 合 ， 制 作 你 的 公开 一 私人 混合 颜色 。 在 这 

,你 使 用 尾 符 号 和 钟 算 将 自己 的 私人 数字 和 公开 数字 相 混 合 。 


第 四 步 : 你 和 阿 话 德 各 目 单 独 获 得 对 方 的 公开 一 私人 数字 ， 再 和 目 己 的 私 
人 数字 相 混 合 。 
这 可 以 按照 下 面 的 公式 完成 : 
享 密 钥 = 其 他 人 的 PPN 私 人 效 子 ( 钟 大 小 ) 


和 前 面 的 公式 一 样 ， 用 文字 写 出 来 会 显得 有 点 诡 异 ， 但 通过 参考 前 一 页 的 表 


你 的 共享 密 钥 = 68= 4 ( 钟 大 小 为 11 ) 
阿诺德 的 共享 密 钥 = 39= 4 ( 钟 大 小 为 11 ) 


最 终 解决 方案 显示 在 下 一 节 的 图 中 。 





你 的 公开 一 私人 数字 阿诺德 的 公开 一 私人 数字 






阿诺德 





你 的 私人 阿诺德 的 私人 
数字 数字 


现实 生活 数字 混合 第 三 步 : 任何 想 要 公开 一 私人 数字 ( 3 和 6 ) 的 人 一 一 使 用 圳 和 钟 算计 算得 出 一 一 都 可 以 获取 
到 。3 下 面 的 “28” 提醒 了 我 们 3 是 如 何 计算 的 ， 但 3=28 使 用 的 钟 大 小 为 11 这 个 事实 却 并 未 公开 。 类 似 的 ，6 下 面 
的 “22” 也 仍然 保持 私密 。 


自然 ， 你 的 共享 密 钥 和 阿诺德 的 共享 密 钥 相 同 ( 这 个 例子 中 是 4 ) 。 取 得 这 个 结 
果 依 靠 了 例子 中 的 一 些 复杂 算术 ， 但 基本 概念 和 前 面 一 样 : 尽管 你 按照 不 同 的 顺序 
混合 了 各 种 成 分 ， 但 你 和 阿诺德 都 使 用 了 相同 的 成 分 ， 因 此 也 得 到 了 相同 的 共享 密 
钥 。 


和 这 个 把 戏 的 早 前 版 本 一 样 ， 伊 天 被 排除 在 外 。 她 知道 这 两 个 公开 数字 ( 2 和 
11 ) ， 她 也 知道 这 两 个 公开 一 私人 数字 ( 3 和 6 ) 。 但 她 不 能 使 用 任何 知识 来 计算 共 
享 密 钥 数 字 ， 因 为 她 不 能 获取 你 和 阿诺德 持 有 的 秘密 成 分 ( 私人 数字 ) 。 


实际 中 的 公 钥 加 密 


颜料 混合 把 戏 的 最 终 版 本 一 一 运用 品 和 钟 算 混 合 数 字 一 一 丈 是 计算 机 在 互联 网 
上 建立 共享 密 钥 的 实际 方法 之 一 。 本 章 描述 的 方法 被 称 为 迪 菲 一 赫 尔 曼 密 钥 交 换 机 
制 。 这 一 机 制 以 怀特 非 德 : 迪 菲 ( Whitfield Diffie ) 和 马丁 . 薪 尔 曼 ( Martin 
Hellman ) 的 名 字 命 名 ， 他 俩 于 1976 年 首次 友 表 了 这 一 算法 。 每 次 你 访问 一 个 安全 
网 站 (以 “https:” 而 非 “http:” 开 头 )， 你 的 计算 机 和 其 通信 的 网 站 服务 器 之 
间 都 会 建立 一 个 共享 密 铀 ， 使 用 的 方法 是 迪 菲 一 赫 尔 曼 机 制 或 工作 原理 类 似 的 蔡 代 
方法 之 一 。 而 一 旦 建立 了 共享 密 钥 ， 这 两 全 电脑 就 能 使 用 之 前 摘 述 的 相 加 算法 的 变 
体 对 所 有 通信 进行 加 密 。 


;性 





你 的 会 开 一 私人 阿 语 短 的 会 开 一 私人 


数字 数字 





< 一 
阿 请 伪 的 私人 
数字 





数字 


现实 生活 数字 混合 第 四 步 : 只 有 你 和 阿诺德 能 得 到 共享 密 钥 数字 ， 通 过 使 用 井 和 钟 界 计算 将 如 箭头 所 示 的 元 素 组 
合 起 来 。 

还 有 很 重要 的 一 点 值得 注意 ， 当 迪 菲 一 赫 尔 曼 机 制 在 现实 中 运用 时 ， 实 际 涉及 
的 数字 要 远 比 我 们 在 例子 中 使 用 的 数字 大 。 我 们 使 用 的 钟 大 小 很 小 ( 11 ) ， 因 此 计 
算 起 来 殉 很 简单 。 但 如 果 你 选择 的 公开 钟 大 小 很 小 ， 那 么 可 能 的 私人 数字 也 会 很 小 
( 因为 你 只 能 使 用 比 钟 大 小 小 的 私人 数字 ) 。 而 这 也 意味 着 有 人 可 以 使 用 计算 机 试 


出 所 有 可 能 的 私人 数字 ， 直 到 找到 一 个 数字 生成 你 的 公开 一 私人 数字 。 在 上 面 的 例 
子 中 ,只 有 11 个 可 能 的 私人 数字 ， 因 此 这 个 系统 非常 轻易 束 能 被 破解 。 相 反 ， 迪 菲 
一 未 尔 曼 机 制 在 现实 中 运用 时 通 剃 会 使 用 有 几 百 个 数位 长 的 钟 大 小 ， 这 让 可 能 的 私 
人 数字 多 得 令 人 不 可 想象 ( 比 一 万 亿 的 一 万 亿 次 方 还 多 得 多 ) 。 即 便 如 此 ， 也 需要 
小 心 选取 公开 数字 ， 以 确保 它们 具有 正确 的 数学 性 质 一 一 如 果 你 感 兴 趣 的 话 ， 请 看 


迪 菲 一 赫 尔 曼 公开 数字 最 重要 的 属性 是 ， 钟 大 小 必须 是 一 个 素数 一 一 只 有 1 
和 其 自身 两 个 除数 。 另 一 个 有 趣 的 要 求 是 ， 基数 必须 是 钟 大 小 的 本 原 根 
( primitive ”root ) 。 这 也 意味 着 基数 的 割 最 终 将 循环 遍 钟 上 每 一 个 可 能 的 
值 。 再 看 看 前 文 提 到 的 表 ， 你 会 注意 到 2 和 6 都 是 11 的 本 原 根 ， 但 3 却 不 是 
的 蝴 循 环 到 的 值 有 3、9、5、4 和 1， 却 没有 2、6、7、8 和 16。 
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在 为 迪 菲 一 赫 尔 曼 机 制 选择 一 个 钟 大 小 和 基数 时 ， 钟 大 小 和 基数 必须 满足 特定 的 数学 性 质 。 


本 章 摘 述 的 迪 菲 一 赫 尔 曼 方法 只 是 通过 ( 电子 ) 明信片 通 信 的 多 种 绝妙 技巧 之 
一 。 计 算 机 科学 家 们 称 迪 菲 一 赫 尔 曼 方 法 为 密 钥 交 换算 法 ( key exchange 
algorithm ) 。 其 他 公 钥 算法 的 运作 方式 不 同 ， 能 让 你 使 用 接收 方 宣 布 的 公开 信 
息 ， 和 直接 向 潜在 的 接收 方 加 密 一 条 消息 。 相 反 ， 密 钥 交 换算 法 能 让 你 使 用 来 自 接收 
方 的 公开 人 信息， 建立 一 个 共享 密 钥 ， 但 加 密 过 程 通 过 加 法 把 戏 来 完成 。 对 于 互联 网 
上 绝 大 部 分 通信 而 言 ， 后 面 的 选项 一 一 我 们 在 本 章 中 了 解 到 的 这 种 方法 一 一 要 更 容 
易 让 人 接受 ， 因 为 它 需 要 的 计算 能 力 要 少 很 多 。 





但 也 有 一 些 程序 需要 用 到 完整 的 公 钥 加 密 。 这 类 程序 中 最 有 趣 的 可 能 要 算数 字 
签名 了 ， 我 们 将 在 第 九 章 谈 到 它 。 在 你 阅读 第 九 章 时 会 发 现 ， 完 整 版 公 钥 加 密 的 思 


想 类 似 于 我 们 已 经 了 解 到 的 : 机 密 信息 和 公开 信息 用 一 种 在 数学 上 不 可 逆 的 方 

式 “ 混 合 ”在 一 起 ， 就 像 混合 在 一 起 的 颜料 一 样 ， 再 也 分 不 开 。 最 著名 的 公 钥 加 密 
系统 是 RSA， 这 个 名 字 由 首次 发 表 该 系统 的 三 位 发 明 者 姓 的 首 字 母 组 合 而 成 : 罗 纳 德 
-李维斯 特 ( Ronald Rivest ) 、 阿 迪 - 沙 米尔 ( Adi Shamir ) 和 雷 奥 纳 德 . 阿 德尔 曼 


( Leonard M.Adlemen ) 。 第 九 章 用 RSA 作 为 解释 数字 等 名 如 何 运 行 的 主要 例子 。 


在 这 些 早期 公 钥 算 法 友 明 的 背后 ， 都 有 一 个 迷人 而 复杂 的 故事 。 迪 非 和 昔 尔 巡 
的 确 是 友 表 迪 菲 一 赫 尔 受 机 制 的 第 一 批 人 ， 时 间 是 1976 年 。 李 维 斯 特 、 阔 米尔 和 阿 
德尔 曼 也 的 确 是 发 表 RSA 的 第 一 批 人 ， 时 间 是 1978 年 。 但 这 并 不 是 故事 的 全 部 ! 人 
们 后 来 友 现 ， 英 国政 府 在 数 年 前 束 已 经 知道 类 似 系统 。 不 雷 的 是 ， 那些 友 明 迪 非 一 
昔 尔 曼 机 制 和 RSA 的 先驱 们 是 英国 政府 通信 实验 室 G6CHQ 的 数学 家 。 他 们 工作 的 结果 
锌 记录 在 内 部 机 密 文 件 中 ， 直 到 1997 年 才 解 密 。 


RSA、 迪 菲 一 赫 尔 曼 机 制 和 其 他 公 钥 加 密 系统 不 仅仅 是 绝妙 的 思想 。 它 们 还 友 展 
成 了 商业 技术 和 互联 网 标准 ， 对 商业 和 个 人 有 着 极其 重要 的 意义 。 没 有 公 钥 加 密 ， 
我 们 每 天 使 用 的 绝 大 部 分 在 线 交 易 都 不 可 能 安全 地 完成 。RSA 的 皮 明 者 在 26 世 纪 76 
年 代为 目 己 的 系统 申请 了 专利 ， 而 他 们 的 专利 直到 2666 年 年 末 才 失效 。 在 专利 失效 
的 那天 晚上 ， 美 国 旧金山 市 的 美国 音乐 大 剧院 举行 了 一 次 庆祝 晚会 一 一 也 许 是 为 庆 
锅 公 钥 加 密 将 永久 为 人 们 服务 这 一 事实 。 

[1] 对 于 了 解 计算 机 数字 系统 的 人 而 言 ， 我 在 这 里 说 的 是 小 数位 数 ， 而 非 二 进 制 数 。 对 于 了 解 对 数 的 人 而 言 ， 
将 二 进 制 数 转化 为 小 数位 数 的 转换 比例 36% 来 自 于 log10?~ 8.3。 


第 五 章 
纠 错 码 
一 一 自 纠正 的 错误 


告诉 一 个 人 他 犯 了 错 是 一 回 事 ， 让 他 掌握 真理 则 是 另 一 码 事 。 


约翰 :洛克 ( John Locke ) ， 
《人 类 理智 论 》 ( Essay Concerning Human Understanding ) 





如 今 ， 我 们 已 习惯 于 在 有 需要 时 随时 使 用 计算 机 。28 世 纪 48 年 代 在 贝尔 电话 公 
司 实验 宇 工 作 的 研究 员 理 碍 德 汉 明 ( Richard Hamming ) 融 没 这 么 笠 运 了 : 其 他 部 
门 使 用 着 他 所 需要 的 公司 计算 机 ， 只 有 周末 才 轮 到 他 用 。 因 此 ， 你 可 以 想象 ， 由 于 
计算 机 在 读 取 自 身 数据 时 出 错 从 而 导致 频繁 崩 演 后 ， 他 有 多 么 泪 形 。 汉 明 谈 到 这 个 
问题 时 是 这 样 说 的 : 


我 要 轮 两 周 才能 进去 一 次 ， 却 友 现 我 所 有 的 东西 都 被 清空 了 ， 什么 都 没 得 
到 。 我 真 的 很 生气 ， 因 为 我 想 要 这 些 答案 ， 而 且 还 浪费 两 个 周末 的 时 间 。 于 是 
我 说 : “去 他 的 ， 如 果 计 算 机 能 侦 测 到 错误 ， 为 什么 它 不 能 对 错误 定位 并 进行 
纠正 ?” 


要 说 明 友 明 纠 错 码 的 必要 性 ， 还 有 另外 几 起 很 鲜明 的 例子 。 汉 明 很 快 束 创造 了 
第 一 批 纠 错 码 : 一 种 近乎 神奇 的 能 侦 测 并 纠正 计算 机 数据 中 错误 的 算法 。 没 有 纠 错 
码 ， 我 们 的 计算 机 和 通信 系统 会 比 现在 慢 很 多 ， 功 能 上 弱 许 多 ， 可 靠 性 也 会 差 很 


多 。 


错误 侦 测 及 纠正 的 需求 


计算 机 有 三 项 基本 工作 。 最 重要 的 工作 是 执行 计算 ， 即 给 予 计算 机 一 些 输 入 数 
据 ， 计 算 机 必须 用 录 种 方法 转化 数据 ， 并 得 出 一 个 有 用 的 答案 。 但 如 果 没 有 计算 机 
执行 的 另外 两 项 非常 重要 的 工作 : 存储 数据 和 传输 数据 ， 计 算 答案 的 能 力 基 本 上 也 
没 用 。 ( 计算 机 通 弟 在 内 存 和 磁盘 驱动 器 上 存储 数据 ， 基 本 上 是 通过 互联 网 传输 数 
据 。 ) 要 深入 理解 这 一 点 ， 想 象 一 台 既 不 能 人 存储 也 不 能 传输 信 


恩 的 计算 机 。 这 样 的 计算 机 目 然 不 会 有 什么 用 。 的 确 ， 你 可 以 做 一 些 复杂 计算 
( 比如， 准备 一 份 复杂 的 财务 报表 ， 详 细 说 明 公 司 预 算 ) ， 但 你 不 能 将 结果 发 送 给 
同事 ， 甚 至 不 能 保存 结果 以 便 返 回 继续 操作 。 因 此 ， 传 输 和 存储 数据 对 现代 计算 机 
是 真正 的 至 关 重 要 。 


但 传输 和 存储 数据 要 面临 一 个 巨大 挑战 : 数据 必须 丝毫 无 差 一 一 因为 在 许多 情 
况 下 ， 哪怕 一 丁点 错误 也 会 让 数据 变 得 毫 无 用 处 。 作 为 人 ， 我 们 也 熟悉 在 不 出 错 的 
情况 下 存储 和 传输 信息 的 需求 。 比 如 ， 如 果 你 写 下 某 人 的 电话 号 码 ， 按 正确 的 顺序 
无 误 地 记录 下 每 位 数 至 天 重要 。 哪 怕 其 中 有 一 位 数 出 错 ， 那 个 电话 号 码 对 你 或 其 他 
人 都 毫 无 用 处 。 在 一 些 情况 中 ， 数 据 出 错 的 后 果 要 比 毫 无 用 处 更 糟 。 比 如 ， 存储 一 
个 计算 机 软件 的 文件 中 有 一 个 错误 ， 这 会 导致 程序 月 省 或 让 程序 做 一 些 原本 不 应 该 
做 的 事 。 ( 程序 甚至 可 能 会 删除 一 些 重要 文件 ， 或 在 你 保存 工作 前 衣 演 。 ) 而 在 一 
些 计 算 机 化 的 金融 记录 中 出 错 ， 可 能 会 导致 实际 的 金钱 损失 。 ( 假如 你 以 为 自己 在 


买 每 股 5 .34 美元 的 股票 ， 而 这 只 股票 的 实际 价格 是 每 股 8.34 美 元 。 ) 





不 过 ， 人 们 需要 存储 的 无 误 信息 相对 较 少 ， 而 且 在 知道 一 些 信息 一 一 如 银行 账 
号 、 密 码 、 电 子 邮件 地 址 等 一 一 很 重要 的 情况 下 ， 通 过 仔细 检查 避免 错误 也 不 是 太 
难 。 而 另 一 方面 ， 计 算 机 要 无 误 地 存储 和 传输 的 信息 量 绝对 是 海量 。 为 了 让 你 对 信 
息 量 级 有 概念 ， 想 想 下 列 情形 。 假 设 你 有 一 个 存储 容量 是 1986 ”GB 的 计算 设备 。 ( 在 
写作 本 书 时 ， 这 是 低 价 笔记 本 电脑 的 标准 容量 。 ) 这 168 ”GB 相当 于 1 586 万 页 文 
本 。 因 此 ， 即 便 计 算 机 存储 系统 每 166 万 页 犯 一 个 错误 ， 在 设备 容量 填 满 时 ( 平均 ) 
也 会 有 15 个 错误 。 这 一 情况 也 适用 于 传输 数据 : 如 果 你 下 载 一 个 26 兆 的 软件 ， 你 的 
计算 机 每 接收 166 万 个 字符 就 会 出 错 一 次 ， 下 载 的 软件 中 也 会 有 逾 26 个 错误 一 一 在 
你 不 曾 预 料 到 的 情况 下 ， 每 一 个 错误 都 有 可 能 导致 成 本 巨大 的 有 衣 演 。 








这 个 故事 的 教训 是 ， 对 于 计算 机 而 言 ， 精 确 度 达 到 99.999 ”9% 也 还 是 不 够 好 。 
计算 机 必须 能 在 仓储 和 传输 数 十 亿 块 信息 的 情况 下 ， 不 犯 任何 一 个 错误 。 但 和 其 他 
设备 一 样 ， 计 算 机 也 必须 处 理 通 信 问 题 。 电 话 就 是 个 好 例子 : 显然 电话 不 能 完美 地 
传输 信息 ， 因 为 电话 对 话 经 常 要 遭遇 失真 、 静 电 品 声 或 其 他 类 型 的 噪声 。 但 电话 并 
不 是 遭遇 这 类 情况 的 唯一 设备 : 电线 受 所 有 种 类 的 波动 影响 ; 无 线 通信 无 时 无 刻 不 
受 干扰 ; 硬盘 、CD ( 激光 唱 盘 ) 和 DVD ( 数字 视频 光盘 ) 等 物理 媒体 会 由 于 灰尘 或 其 
他 物理 干扰 的 影响 ， 被 划 伤 、 受 损 或 不 能 读 取 。 面 临 如 此 显然 的 通信 错误 ， 我 们 怎 
么 能 希望 实现 数 十 亿 分 之 一 的 错误 率 呢 ? 本 章 将 揭示 让 这 一 奇迹 友 生 的 绝妙 计算 机 
科学 背后 的 思想 。 结 果 证 明 ， 如 果 你 运用 正确 的 把 戏 ， 即 便 是 极端 不 可 靠 的 通信 频 
道 也 可 以 以 极 低 的 错误 率 传 输 数 据 。 而 且 这 个 错误 率 是 如 此 之 低 ， 以 至 于 在 实际 当 
中 ， 错 误 基 本 上 完全 被 消除 了 。 


重复 把 戏 


要 通过 一 个 不 可 靠 的 频道 进行 可 靠 的 通信 ， 其 中 最 根本 的 把 戏 是 我 们 都 熟悉 
的 : 要 确保 一 些 信息 正确 地 传输 ， 你 只 需 重复 几 次 该 信息 。 如 果 某 人 在 电话 连接 很 
糖 糕 的 情况 下 ， 念 给 你 听 一 个 电话 号 码 或 银行 账号 ， 你 极 有 可 能 会 要 求 对 方 至 少 重 
复 一 次 ， 以 便 确认 号 码 无 误 。 


计算 机 也 能 做 同样 的 事情 。 假 设 银行 的 一 台 计 算 机 试图 通过 互联 网 把 你 的 账户 
余额 传 给 你 。 你 的 账户 余额 是 5 213 .75 美 元， 但 不 雷 的 是 ， 网 络 不 稳定 ， 每 一 个 数 
字 都 有 26% 的 概率 变 成 其 他 东西 。 因 此 ， 当 你 的 账 尸 余 额 第 一 次 传输 过 来 时 ， 显 示 的 
可 能 是 5 ”293.75 美 元 。 很 显然 ， 你 没 办 法 知道 余额 是 否 正确 。 所 有 的 数字 都 有 可 能 
正确 ， 但 其 中 一 个 或 以 上 的 数字 可 能 出 错 ， 而 你 没有 办 法 分 辨 。 但 通过 运用 重复 把 


传输 1 


传输 2 


传输 3 


传输 4 


传输 5 


:$5293， 


:$5213， 


:$5213.: 


:$5443.: 


:$7218. 


戏 ( the reprtition trick )， 你 能 很 好 地 推测 出 真正 的 余额 。 假 设 你 请 求 传 出 
余额 5 次 ， 并 收 到 了 以 下 反馈 : 


75 


注意 ， 其 中 一 些 传输 不 止 一 位 数 出 错 ， 也 有 一 次 传输 ( 传输 2 ) 没有 出 现 错误 。 


传输 1 : 


传输 2 : 


传输 3 : 


传输 4 : 


传输 5 : 


$2 


$2 


$5 2 3 


$5443- 


$7218.: 


关键 点 在 于 ， 你 没 办 法 知道 哪儿 有 错 ， 因 此 也 没 办 法 将 传输 2 挑选 为 正确 的 传输 。 相 
反 ， 你 可 以 做 的 事情 束 是 单独 检查 每 个 数字 ， 
出 现 最 频繁 的 那个 值 。 下 面 列 出 了 所 有 传输 项 ， 最 末尾 是 出 现 频率 最 高 的 数字 : 


寻找 同一 数字 的 所 有 传输 ， 然 后 选 出 


75 


出 现 频率 最 高 的 数字 :$ 5213:75 


要 把 这 个 概念 完全 弄 清楚 ， 让 我 们 来 看 些 例子 。 检 查 传输 中 的 第 一 位 数 ， 在 传 
输 1~4 中 ， 第 一 位 数 都 是 5， 而 传输 5 的 第 一 位 数 是 7。 换 句 话说 ， 第 一 位 数 在 4 次 传 
输 中 是 “5”， 而 只 在 一 次 传输 中 是 “7”。 因 此 ， 尽管 你 不 能 完全 肯定 ， 但 你 银行 
余额 第 一 位 数 的 值 最 有 可 能 是 5。 转 到 第 二 位 数 ， 我 们 看 到 2 出 现 了 4 次 ， 而 4 出 现 了 1 
次 ， 因 此 2 最 有 可 能 是 第 二 位 数 。 第 三 位 数 有 后 有 趣 ， 因 为 有 三 种 可 能 性 : 1 出 现 了 3 
次 ，9 出 现 了 1 次 ，4 出 现 了 1 次 。 但 同样 的 原则 也 适用 ，1 是 最 有 可 能 为 真 的 值 。 通 过 
对 所 有 数字 使 用 这 种 方法 ， 你 可 以 得 到 完整 银行 余额 的 最 终 推测 : 5213 .75 美 元 ， 
而 这 也 正 是 正确 的 值 。 


这 种 方法 很 简单 。 我 们 已 经 解决 这 个 问题 了 吗 ? 在 某 种 程度 上 ， 是 的 。 但 你 
许 会 对 两 件 事 感到 不 满 。 首 先 ， 这 个 信道 的 错误 率 只 有 26%， 而 在 一 些 情况 中 ， 计 算 
机 需要 在 错误 率 远 高 于 26% 的 信道 中 通信 。 其 次 ， 也 许 要 更 严肃 些 ， 上 面 例子 的 最 终 
答案 恰好 是 正确 的 ， 但 不 能 保证 答案 会 永远 都 正确 : 它 只 是 一 个 推测 ， 基 于 我 们 的 
看 法 一 一 认为 它 才 是 最 有 可 能 为 真 的 银行 余额 。 幸 运 的 是 ， 这 两 件 事 都 很 容易 处 
理 : 我 们 只 需 增加 重新 传输 的 次 数 ， 直 到 可 靠 性 高 到 让 我 们 满意 为 止 。 





比如 ， 假 设 最 后 一 个 例子 中 的 错误 率 是 58% 而 不 是 26%。 你 可 以 要 求 银行 传输 1 
666 次 余额 ， 而 不 是 5 次 。 让 我 们 集中 天 注 第 一 位 数 ， 因 为 其 他 数 的 工作 原理 都 一 
样 。 由 于 错误 率 是 56%， 大 约 有 一 半 的 数 会 正确 地 传输 为 5， 但 另 一 半 会 变 成 其 他 随 
机 值 。 因 此 5 会 出 现 约 568 次 ， 其 他 每 个 数 ( 6~4 和 6~9 ) 都 会 出 现 56 次 左右 。 数 学 家 
们 能 计算 出 某 个 数 出 现 的 次 数 比 5 多 的 概率 : 即便 使 用 这 个 方法 每 秒 传输 一 个 新 的 银 
行 余额 ， 我 们 也 得 等 上 数 万 亿 年 才能 猜 氏 银行 余额 。 这 个 故事 的 重点 在 于 ， 通 过 重 
复 一 条 不 可 靠 的 消息 足够 多 次 ， 你 可 以 让 消息 的 可 靠 性 高 到 让 你 满意 为 止 。 ( 在 这 
举例 子 中 ， 我 们 假设 错误 随机 上 友 生 。 相 反 ， 如 果 一 个 恶意 实体 故意 干扰 传输 ， 并 选 
择 制 造 哪些 错误 ， 重 复 把 戏 都 要 不 安全 得 多 。 后 面 介 绍 的 一 些 代 码 在 对 抗 这 类 恶意 


攻击 时 都 表现 展 好 。 ) 


因此 ， 通 过 使 用 重复 把 戏 ， 不 可 靠 通信 的 问题 能 够 被 解决 ， 错 误 率 基本 上 能 被 
消灭 。 不 幸 的 是 ， 重 复 把 戏 对 于 现代 计算 机 系统 来 说 还 不 够 好 。 当 传输 像 银 行 余额 
这 样 的 小 块 数据 时 ， 重 新 传输 1 666 次 耗费 并 不 多 ， 但 在 下 载 一 个 大 型 软件 ( 假设 有 
266 兆 ) 时 ， 显 然 传输 1 ”6866 份 广 软 件 完 全 不 现实 。 很 明显 ， 计 算 机 需要 使 用 一 些 比 
重复 把 戏 更 成 熟 的 万 法 。 


风 余 把 戏 


即便 计算 机 不 使 用 上 面 描述 到 的 重复 把 戏 ， 我 们 也 在 本 章 一 开始 介绍 它 ， 以 便 
让 我 们 能 了 解 实际 生活 当中 可 靠 通信 最 基本 的 原则 。 这 条 基本 原则 是 ， 你 不 能 只 上 友 
送 原始 消息 : 你 要 发 送 一 些 多 余 的 东西 以 增加 可 靠 性 。 在 重复 把 戏 的 例子 中 ， 你 发 
送 的 额外 东西 就 是 更 多 份 原始 消息 。 但 实际 情况 是 ， 要 提高 可 靠 性 ， 你 还 有 其 他 许 
多 多 余 的 东西 可 以 发 送 。 计 算 机 科学 家 们 称 这 些 多 余 的 东西 为 “多余 ”。 有 时候， 
见 余 被 附加 在 原始 消息 上 。 在 研究 下 一 个 把 戏 ( 校 验 和 把 戏 ) 时 ， 我 们 会 看 到 这 
种 “附加 ”技术 。 但 首先 ， 我 们 要 研究 另 一 种 添加 元 余 的 方法 。 这 种 方法 实际 上 是 
把 原始 消息 转换 成 一 条 更 长 的 元 余 消息 一 一 原始 消息 会 被 删除 ， 取 而 代 之 的 是 一 条 
更 长 的 不 同 消息 。 当 收 到 更 长 的 消息 时 ， 你 束 能 将 其 转换 回 原始 消息 ,即便 这 条 元 
余 消 息 在 糟 料 的 信道 中 传输 时 被 破坏 了 。 我 们 将 这 种 方法 入 单 地 称 为 匈 余 把 戏 。 


举 个 例子 更 容易 说 清 。 之 前 我 们 尝试 将 你 的 银行 余额 5 213 .75 美 元 通过 一 条 不 
可 靠 的 信道 传输 ， 这 条 信道 有 26% 的 概率 随机 蔡 换 数字 。 和 尝试 只 传输 “$5 
213.75” 不 同 的 是 ， 让 我 们 把 这 个 数字 转换 成 一 条 包含 相同 信息 的 更 长 的 ( 因此 也 
是 “元 余 的 ” ) 消息 。 在 这 个 例子 中 ， 我 们 用 英语 单词 简单 地 把 余额 拼 出 来 : 


five two one three point seven five 


我 们 再 假设 ， 由 于 信道 糟糕 ， 这 条 消息 中 约 26% 的 字符 会 变 成 其 他 随机 字符 。 这 


条 消息 最 终 可 能 变 成 : 
fiqe kwo one thrxp point sivpn fivq 


尽管 读 起 来 有 点 讨厌 ， 但 我 认为 ， 任 何 知 道 瑞 语 的 人 都 能 猜 出 ， 这 条 被 破坏 的 
消息 代表 真正 的 银行 余额 5 213 .75 美 元 ， 这 点 你 应 该 会 赞同 。 


天 键 在 于 ， 因 为 我 们 使 用 了 一 条 元 余 消 息 ， 对 消息 中 的 任何 单个 变化 进行 可 靠 
侦 测 及 纠正 变 得 可 行 。 如 果 我 告诉 你 ， 字 母 “fiqe” 代 表 英 语 中 的 一 个 数字 ， 且 只 
有 一 个 字母 被 蔡 换 了 ， 你 绝对 能 肯定 原始 消息 中 的 单词 是 “five”， 因 为 除 此 以 外 
再 也 没有 瑞 语 数字 能 通过 替换 “fiqe” 中 一 个 字母 获得 了 。 与 此 形成 鲜明 对 比 的 
是 ， 如果 我 告诉 你 ， 数 字 “367” 代 表 了 一 个 数 ， 但 其 中 一 个 数字 被 蔡 换 了 ， 你 没 办 


法 知道 原始 数字 是 多 少 ， 因 为 这 条 消息 中 没有 几 余 。 


尽管 我 们 还 没 弄 清 元 余 究 竟 是 如 何 工作 的 ， 但 却 已 经 知道 它 和 让 消息 变 长 有 


被 识别 ( 因为 并 不 符合 已 知 模式 ) ， 然 后 被 纠正 ( 通过 改变 错误 使 其 符合 模式 ) 。 
计算 机 科学 家 称 这 些 已 知 模式 为 “代码 字 ” ( code words ) 。 在 上 面 的 例子 中 ， 代 


码 字 就 是 用 英语 写 的 数字 ， 如 “one”、“two”、 “three” 等 。 


现在 是 时 候 解 释 见 余 把 戏 ( the redundany trick ) 究竟 是 如 何 运 作 的 了 。 消 
息 由 “符号 ”一 一 计算 机 科学 家 是 这 么 称呼 的 一 一 组 成 。 在 我 们 这 个 简单 例子 中 ， 
符号 是 数字 6~9 ( 我 们 会 忽略 美元 符号 以 及 小 数 点 ， 让 事情 变 得 更 简单 ) 。 每 个 符号 


都 被 指定 了 一 个 代码 字 。 在 这 个 例子 中 ， 符 号 1 被 指定 的 代码 字 是 “one”，2 被 指定 





的 代码 字 是 “two”， 依 此 类 推 。 


要 传输 一 条 信息 ， 你 首先 要 找 出 每 个 符号 ， 并 将 符号 转译 成 对 应 的 代码 字 。 其 

, 你 将 转换 的 消息 通过 不 可 靠 信道 友 送 。 当 消息 被 接收 到 时 ， 你 查看 消息 的 每 个 
部 分 ， 检 查 其 是 否 为 有 效 的 代码 字 。 如 果 它 是 有 效 的 ( 如 “five” ) ， 你 只 需 将 其 
转换 为 相应 的 符号 ( 如 5 ) 即 可 。 如 果 其 不 是 有 效 的 代码 字 ( 如 “fiqe” ) ， 你 要 找 
出 其 和 哪个 代码 字 最 匹配 ( 这 个 例子 中 融 是 “five” ) ， 并 将 那个 无 效 代 码 字 转 换 
成 相应 的 符号 ( 也 就 是 5 ) 。 使 用 这 些 代码 的 例子 如 下 图 所 示 : 


网 


编码 


5 ( 最 接近 的 匹配 ) 


5 ( 完全 匹配 ) 
we 各 2 ( 最 接近 的 匹配 ) 





使 用 英文 字 表 示 数 字 的 代码 


这 融 是 全 部 过 程 。 实 际 上 ， 计 算 机 在 存储 和 传输 信息 时 会 一 直 用 到 这 个 隐 余 把 
戏 。 和 我 们 在 例子 中 使 用 的 英语 相 比 ， 数 学 家 们 已 经 找到 了 更 漂亮 的 代码 字 ， 但 可 
靠 计 算 机 通信 的 工作 原理 仍然 相同 。 下 页 的 图 融 列 举 了 一 个 真实 例子 。 这 个 例子 和 。 
计算 机 科学 家 们 称 为 ( 7，4 ) 汉 明 代码 ( Hamming code ) ， 这 是 理 查 德 汉 明 于 
1947 年 企 贝 尔 实验 军 友 明 的 代码 乙 一 ， 为 了 处 理 之 前 说 过 的 周末 计算 机 朋 汗 。 ( 由 
于 贝尔 实验 宇 的 要 求 ， 汉 明 申 请 了 这 些 代 码 的 专利 ， 直 到 3 年 后 的 1956 年 才 友 表 。 ) 
和 我 们 在 前 面 用 到 的 代码 相 比 ， 汉 明代 码 最 明显 的 区 别 是 所 有 事情 都 通过 e 和 1 完 
成 。 因 为 计算 机 仓储 和 传输 的 每 一 块 数据 都 会 被 转化 为 6 和 1 的 字符 串 ， 现 实生 活 中 
使 用 的 所 有 代码 也 限 用 这 两 个 数字 。 


编码 


一 一 

66060 06066666 
一 一 

66061 660601611 
一 一 

6016 66016111 
一 一 

6611 6011166 


二 :一 人 
69016066 690166116 


| oor | 一 | 6616 ( 完全 匹配 ) 
| e01010 | 一 | 6616 ( 最 接近 的 匹配 ) 
| :aaaeoe| 一 6611 ( 最 接近 的 匹配 ) 





计算 机 使 用 的 真实 代码 。 计 算 机 科学 家 们 称 这 一 代码 为 ( 7,4 ) 汉 明 代码 。 注 意 ，“ 编 码 ” 框 中 只 列 出 了 16 个 可 
能 的 四 位 数 输入 中 的 5 个 。 其 余 的 输入 也 都 有 相应 的 代码 字 ， 但 它们 在 这 里 被 省 略 了 。 


使 用 英文 字 表 示 数 字 的 代码 


这 融 是 全 部 过 程 。 实 际 上 ， 计 算 机 在 存储 和 传输 信息 时 会 一 直 用 到 这 个 隐 余 把 
戏 。 和 我 们 在 例子 中 使 用 的 英语 相 比 ， 数 学 家 们 已 经 找到 了 更 漂亮 的 代码 字 ， 但 可 
靠 计 算 机 通信 的 工作 原理 仍然 相同 。 下 页 的 图 融 列 举 了 一 个 真实 例子 。 这 个 例子 和 。 
计算 机 科学 家 们 称 为 ( 7，4 ) 汉 明 代码 ( Hamming ”code ) ， 这 是 理 查 德 汉 明 于 
1947 年 企 贝 尔 实验 军 友 明 的 代码 乙 一 ， 为 了 处 理 之 前 说 过 的 周末 计算 机 月 汗 。 ( 由 
于 贝尔 实验 宇 的 要 求 ， 汉 明 申 请 了 这 些 代 码 的 专利 ， 直 到 3 年 后 的 1956 年 才 友 表 。 ) 
和 我 们 在 前 面 用 到 的 代码 相 比 ， 汉 明代 码 最 明显 的 区 别 是 所 有 事情 都 通过 e 和 1 完 
成 。 因 为 计算 机 存储 和 传输 的 每 一 块 数据 都 会 被 转化 为 9 和 1 的 字符 串 ， 现 实生 活 中 
使 用 的 所 有 代码 也 限 用 这 两 个 数字 。 


计算 机 使 用 的 真实 代码 。 计 算 机 科学 家 们 称 这 一 代码 为 ( 7， 4 ) 汉 明 代码 。 注 
意 ，“ 编 码 ” 框 中 只 列 出 了 16 个 可 能 的 四 位 数 输入 中 的 5 个 。 其 余 的 输入 也 都 有 相应 
的 代码 字 ， 但 它们 在 这 里 被 省 略 了 。 


除 此 以 外 ， 所 有 事情 都 和 前 面 一 模 一 样 。 在 编码 时 ， 每 一 组 4 位 数字 都 加 入 了 元 
余 ， 产 生 了 一 个 7 位 数 的 代码 字 。 在 解码 时 ， 你 首先 要 为 接收 到 的 7 位 数 寻 找 完全 苞 
配 ， 如 果 寻 找 完全 匹配 失败 ， 融 选择 最 接近 的 匹配 。 你 也 许 会 担心 ， 现 在 我 们 在 和 8 
及 1 打交道 ， 也 许 相近 的 匹配 不 只 一 个 ， 最 后 可 能 会 选择 错误 的 解码 。 不 过 ， 这 种 特 
殊 代码 的 设计 非常 精 15，7 位 数 代 码 字 中 的 任何 错误 都 能 得 到 确定 无 疑 的 纠正 。 在 设 
计 市 有 这 种 属性 的 代码 背后 是 一 些 美 丽 的 数学 ， 但 在 这 里 ， 我 们 不 会 深究 其 细节 。 


值得 强调 的 是 ， 为 什么 元 余 把 戏 在 实际 应 用 中 要 比重 复 把 戏 更 受 欢 迎 。 主 要 原 
因 是 这 两 个 把 戏 的 相对 成 本 。 计 算 机 科学 家 们 使 用 “杂项 ” ( overhead ) 衡量 纠 错 
系统 的 成 本 。 杂 项 就 是 为 确保 消息 被 正确 接收 而 友 送 的 多 余 信 息 。 重 复 把 戏 的 杂项 
数量 巨大 ， 因 为 你 必须 友 送 数 份 完整 消息 。 见 余 把 戏 的 杂项 取决 于 你 使 用 的 代码 字 
的 具体 类 型 。 上 面 的 例子 使 用 英语 作为 代码 字 ， 允 余 消 息 有 35 个 字母 长 ， 而 原始 消 
息 只 含有 6 个 数字 ， 因 此 元 余 把 戏 这 一 特殊 应 用 的 杂项 也 很 大 。 但 数学 家 们 已 经 找到 
了 兄 余 度 低 很 多 的 代码 字 ， 而 且 其 在 侦 测 错误 的 概率 上 也 效率 惊人 。 这 些 代码 字 的 
低 杂 项 也 是 计算 机 使 用 见 余 把 戏 一 一 而 非 重复 把 戏 一 一 的 原因 。 


到 目前 为 止 ， 我 们 进行 的 讨论 都 使 用 利用 代码 传输 信息 的 例子 ， 但 我 们 讨论 过 
的 所 有 事情 都 能 很 好 地 在 存储 信息 的 任务 中 应 用 。CD、DVD 和 计算 机 硬盘 都 极度 依赖 
纠 错 码 ， 以 实现 我 们 在 现实 中 观察 到 的 超级 可 靠 性 。 


校 验 和 把 戏 


目前 为 止 ， 我 们 研究 了 同时 侦 测 和 纠正 数据 中 错误 的 方法 。 重 复 把 戏 和 允 余 把 
戏 都 属于 此 类 方法 。 但 还 有 另外 一 种 可 能 的 方法 能 解决 整个 问题 : 我 们 可 以 先 不 管 
纠 错 ， 而 是 将 精力 集中 在 侦 测 错误 上 。 ( 17 世 纪 的 哲学 家 约翰 洛克 对 错误 侦 测 和 错 
误 纠 正之 间 的 区 别 有 清 楚 地 认识 一 一 正如 你 在 本 章 开篇 引言 中 所 看 到 的 。 ) 对 于 许 
多 软件 而 言 ， 只 侦 测 到 一 个 错误 丈 足 够 了 ， 因 为 如 果 你 侦 测 到 了 一 个 错误 ， 请 求 再 
发 送 一 份 数 据 即 可 。 而 且 你 可 以 一 直 请 求 新 拷贝 ， 和 直到 得 到 完全 无 误 的 拷贝 。 这 是 
最 经 党 使 用 的 策略 。 比 如 ， 几 乎 所 有 互联 网 连接 都 使 用 这 一 技术 。 我 们 称 这 一 方法 
为 “ 校 验 和 把 戏 ” ( The checksum trick ) ， 这 么 命名 的 原因 很 快 融会 明明。 


要 理解 校 验 和 把 戏 ， 假 设 我 们 所 有 消息 都 只 有 数字 组 成 会 更 方便 些 。 这 是 一 个 


非 名 真实 的 假设 ， 因 为 计算 机 用 数字 存储 所 有 信息 ， 只 有 在 向 人 展示 信息 时 ， 才 把 

数字 转译 成 文本 或 图 像 。 不 过 ， 在 本 章 所 有 的 例子 中 ， 任 何 对 消息 符号 的 特殊 选择 

都 不 影响 本 章 摘 述 的 技术 ， 理 解 这 点 很 重要 。 有 时 候 使 用 数字 符号 ( 数字 6~9 ) 更 方 
便 ， 而 有 时 候 使 用 字母 符号 ( 字母 a~z ) 要 更 加 方便 。 不 过 ， 不 管 是 使 用 哪 种 符号 ， 

我 们 都 能 束 这 些 符号 之 间 的 一 些 转 译 达 成 一 致 。 比 如 ， 从 字母 转译 为 数字 符号 的 一 

个 明显 例子 就 是 a 一 61、b 一 62、.……、z 一 26。 因 此 ， 我 们 是 在 探究 一 项 传输 数字 消 
恩 还 是 字母 消息 的 扩 术 融 变 得 无 天 紧要 了 ; 通过 首先 对 符号 进行 简单 的 固定 的 转 

译 ， 这 项 技术 稍 后 将 被 应 用 在 任何 种 类 的 消息 上 。 


到 这 里 ， 我 们 必须 了 解 校 验 和 究竟 是 什么 。 校 验 和 的 种 类 有 很 多 ， 但 目前 我 们 
将 着 重 于 最 简单 的 那 种 校 验 和 一 一 我 们 称 之 为 “简单 校 验 和 和 ” ( simple 
checksum ) 。 计 算 一 条 数字 消息 的 简单 校 验 和 的 确 很 容易 : 你 只 需 将 消息 中 的 所 有 
数字 相 加 ， 只 保留 结果 的 最 后 一 位 数 ， 剩 下 的 数字 束 是 你 的 简单 校 验 和 和 。 比 如 : 假 


设 消息 是 : 
46756 


那么 所 有 数字 之 和 为 4+6+7+5+6 = 28， 但 我 们 只 保留 最 后 一 位 数 ， 因 此 这 条 消 
息 的 简单 校 验 和 是 8。 


但 如 何 使 用 校 验 和 呢 ? 很 简单 : 你 只 需 在 发 送 原始 消息 前 ， 将 原始 消息 的 校 验 
和 附加 到 消息 末尾 即 可 。 在 别人 接收 到 消息 后 ， 他 们 能 再 计算 校 验 和 ， 并 和 你 上 太 送 
的 校 验 和 比较 ， 看 是 否 正 确 。 换 句 话说 ， 他们 “check”( 校 验 ) 消息 
的 “sum”( 和 ) 一 一 这 就 是 术语 “checksum”( 校 验 和 ) 的 由 来 。 继 续 说 上 面 的 
例子 。 消 息 “46756” 的 简单 校 验 和 是 8， 因 此 我 们 这 样 来 传输 消息 及 其 校 验 和 : 


467568 


现在 ， 接 收 消息 的 人 必须 知道 你 使 用 的 是 校 验 和 把 戏 。 假 设 他 们 确实 知道 ， 他 
们 融 能 立即 认 出 最 后 一 位 数 8 不 属于 原始 消息 ， 然 后 把 最 后 一 位 数 族 一边， 计算 其 他 
数 的 和 。 如 果 在 传输 这 条 消息 时 没有 出 现 错误 ， 他 们 会 计算 4+6+7+5+6 = 28， 保 留 
最 后 一 位 数 ( 也 束 是 8 ) ， 在 将 最 后 一 位 数 和 之 前 放 到 一 边 的 校 验 和 比较 ， 看 是 否 相 
等 ( 的 确 相等 ) ， 因 此 得 出 总 结 ， 消息 正 确 地 进行 了 传输 。 另 一 方面 ， 如 果 传 输 消 
息 时 出 错 了 ， 这 时 会 发 生 什 么 ? 假设 7 随机 变 为 3。 那 么 你 会 收 到 如 下 消息 : 


463568 


你 将 8 放 到 一 边 以 备 后 续 比 较 ， 并 计算 校 验 和 为 4+6+3+5+6 = 24， 只 保留 最 后 
一 位 数 ( 4 ) 。4 和 和 之 前 放 到 一 边 的 8 并 不 相等 ， 因 此 你 可 以 肯定 消息 在 传输 途中 遭 到 
了 破坏 。 这 时 ， 你 请 求 重新 传输 消息 ， 直 到 接收 到 新 拷贝 ， 然 后 再 次 计算 并 比较 校 
验 和 。 你 可 以 一 直 这 么 做 ， 直 到 得 到 一 条 校 验 和 正确 的 消息 为 止 。 


所 有 这 一 切 似乎 太 过 美好 ， 不 可 能 成 真 。 还 记得 吗 ? 一 个 纠 错 系统 的 “ 杂 
项 ”就 是 在 发 送 消息 本 身 以 外 要 发 送 的 额外 信息 量 。 好 吧 ， 我 们 似乎 得 到 了 终极 低 
杂项 系统 ， 因 为 不 管 消息 有 多 长 ， 我 们 只 需 多 添加 一 位 数 ( 校 验 和 ) 就 能 侦 测 错 
误 ! 

啊 ， 结 果 证 明 简 单 校 验 和 系统 太 过 美好 ， 不 能 成 真 。 简 单 校 验 和 的 问题 是 : 上 
面 描述 到 的 简单 校 验 和 最 多 只 能 在 消息 中 侦 测 出 一 错误 。 如 果 有 两 个 或 更 多 错误 ， 
简单 校 验 和 或 许 能 侦 测 到 它们 ， 但 也 有 可 能 侦 测 不 到 。 让 我 们 来 看 看 这 个 问题 的 一 
些 例子 : 


上 TIT 





原始 消息 ( 46756 ) 和 前 面 一 样 ， 其 校 验 和 也 没 变 ( 8 ) 。 下 一 行 的 消息 有 一 个 
错误 ( 第 一 个 数 是 1 而 不 是 4 ) ， 其 校 验 和 为 5。 事 实 上 ， 你 很 有 可 能 说 服 自己 ， 更改 
任何 单个 数字 都 会 导致 与 8 不 同 的 校 验 和 ， 因 此 你 保证 能 侦 测 到 消息 中 的 任何 单个 镑 
误 。 要 证 明 这 一 点 永远 为 真 并 不 难 : 如 果 只 有 一 个 错误 ， 简 单 校 验 和 绝对 能 保证 侦 


测 到 它 。 


再 下 一 行 ， 我 们 看 到 一 条 市 有 两 处 错误 的 消息 : 前 两 个 数 都 被 替换 了 。 这 条 消 
息 的 校 验 和 恰好 是 4。 而 由 于 4 和 原始 校 验 和 8 不 同 ， 收 到 这 条 消息 的 人 能 侦 测 到 出 现 
了 一 个 错误 。 然 而 ， 最 后 一 行 束 遇 到 了 麻烦 。 这 也 是 一 条 有 两 处 错误 的 消息 ,也 是 
前 两 位 数 出 错 。 但 出 错 的 两 位 数 的 值 不 同 ， 而 且 这 条 有 两 处 错误 的 消息 的 校 验 和 愉 
好 也 是 8 一 一 和 原始 校 验 和 一 样 ! 因此 接收 这 条 消息 的 人 将 不 能 侦 测 到 消息 中 有 错 


误 。 


幸运 的 是 ， 我 们 可 以 通过 对 校 验 和 把 戏 进 行 一 些微 调 来 解决 这 个 问题 。 第 一 步 
是 定义 一 种 新 的 校 验 和 。 让 我 们 称 这 种 新 的 校 验 和 为 “阶梯 ” 校 验 和 ( staircase 
checksum ) ， 因 为 这 个 名 字 有 助 于 通过 想象 在 肛 楼 梯 进 行 计算 。 想 象 你 处 于 一 个 楼 
梯 的 底部 ， 楼 梯 台 阶 编 号 为 LJ、2、3.…. 依 此 类 推 。 要 计算 阶梯 校 验 和 ， 你 像 之 前 一 


样 把 数字 相 加 ， 但 每 个 数 都 要 和 该 数字 所 在 位 阶 数 相 乘 ， 每 个 数 都 比 前 一 个 数 大 一 
个 位 阶 。 最 后 ， 你 只 保留 最 后 一 位 数 ， 和 简单 校 验 和 一 样 。 因 此 ， 如 果 消 息 是 : 


46756 
和 之 前 类 似 ， 阶 梯 校 验 和 通过 首先 计算 阶梯 和 来 结算 : 
(1x4)+ (2x6)+ (3x7) + (4x5) + (5x6) 


=4+12+ 21+ 20 + 30 
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然后 只 保留 最 后 一 位 数 ， 也 就 是 7。 因 此 “46756” 的 阶梯 校 验 和 为 7。 


所 有 这 一 切 想 说 明 什么 ? 如 果 你 同时 使 用 简单 校 验 和 及 阶梯 校 验 和 ， 那么 你 就 
保证 能 侦 测 到 任何 消息 中 两 处 错误 。 因 此 ， 用 我 们 新 的 校 验 和 把 戏 来 传输 原始 消息 
会 多 出 两 个 数字 : 首先 是 简单 校 验 和 ， 其 次 是 阶梯 校 验 和 。 比 如 ， 消息 “46756” 会 
以 : 


4675687 


传输 。 当 你 收 到 消息 时 ， 你 仍然 必须 提前 知道 会 运用 哪些 把 戏 。 但 假设 你 确实 
知道 ， 那 么 检查 错误 融 像 使 用 简单 校 验 和 一 样 容 易 。 在 这 个 例子 中 ， 你 先 把 最 后 两 
个 数 ( 简单 校 验 和 8 及 阶梯 校 验 和 7 ) 放 一 边 ， 然 后 计算 消息 其 余部 分 的 简单 校 验 和 
(46756 的 简单 校 验 和 是 8 ) ， 阶 梯 校 验 和 也 要 计算 ( 结果 为 7 ) 。 如 果 两 个 计算 后 
的 校 验 和 值 和 友 送 的 两 个 校 验 和 匹配 ( 这 个 例子 中 的 两 个 值 的 确 匹配 ) ， 你 残 可 以 
保证 这 条 消息 要 么 是 正确 的 ， 要 么 至 少 有 三 处 错误 。 


下 一 张 表 显示 了 这 两 种 校 验 和 的 实际 运用 情况 。 这 张 表 和 前 面 那 张 表 几乎 一 模 
一 样 ， 除 了 在 每 行 末 尾 加 上 了 阶梯 校 验 和 ， 以 及 新 加 了 一 行 作为 额外 的 例子 。 当 消 
息 中 有 一 处 错误 时 ， 我 们 友 现 这 条 消息 的 简单 校 验 和 及 阶梯 校 验 和 均 与 原始 消息 的 
不 同 ( 简单 校 验 和 是 5 而 不 是 8， 阶 梯 校 验 和 是 4 而 不 是 7 ) 。 当 消息 中 有 两 处 错误 
时 ， 有 可 能 两 个 校 验 和 值 都 不 相同 ， 如 表 中 第 3 行 的 简单 校 验 和 是 4 而 不 是 8， 阶 梯 校 
验 和 是 2 而 不 是 7。 但 正如 我 们 已 经 友 现 的 ， 有 时 候 当 消息 中 有 两 处 错误 时 ， 该 消息 
的 简单 校 验 和 不 会 改变 。 表 中 第 4 行 融 是 这 种 情况 的 一 个 例子 ， 其 简单 校 验 和 仍然 是 
8。 但 因为 阶梯 校 验 和 和 原始 消息 的 不 同 ( 9 而 不 是 7 ) ， 我 们 仍然 知道 这 条 消息 有 
误 。 在 表 中 最 后 一 行 ， 我 们 能 看 到 还 有 另外 一 种 情况 : 这 条 含有 两 处 错误 的 消息 的 
简单 校 验 和 不 同 ( 是 9 而 不 是 8 ) ， 但 其 阶梯 校 验 和 却 一 样 ( 7 ) 。 不 过 ， 这 里 的 意思 
是 我 们 仍然 能 侦 测 到 错误 ， 因 为 两 个 校 验 和 中 人 至少 有 一 个 和 原始 校 验 和 不 同 。 尽 管 
需要 用 一 些 稍微 技术 性 的 数学 来 证 明 ， 但 有 一 点 是 确认 无 疑 的 : 只 要 错误 不 超过 两 
处 ， 你 束 都 能 够 侦 测 到 错误 。 





既然 我 们 对 基本 方法 有 了 初步 了 解 ， 我 们 需要 意识 到 ， 刚 刚 搞 述 的 校 验 和 把 戏 
只 能 保证 在 相对 较 短 的 消息 上 奏效 ( 少 于 16 位 数 ) 。 但 与 此 非常 类 似 的 概念 能 被 应 
用 在 较 长 的 消息 上 。 通 过 一 定 的 简单 操作 序列 ， 如 把 数字 加 起 来 ， 将 数字 和 其 位 阶 
相 乘 ， 或 按照 固定 模式 将 一 些 数字 交换 ， 我 们 还 是 有 可 能 定义 校 验 和 的 。 尽 管 这 听 
起 来 很 复杂 ， 计 算 机 却 能 毫 不 费力 地 迅速 计算 这 些 校 验 和 和 。 结 果 证 明 ， 这 些 方法 用 
在 侦 测 消息 中 的 错误 上 极其 有 效 且 实用 。 


上 面 摘 述 的 校 验 和 把 戏 只 生成 两 个 校 验 和 数字 ( 简单 校 验 和 及 阶梯 校 验 和 ) ， 
但 真正 的 校 验 和 通常 会 生成 比 这 长 得 多 的 数字 一 一 有 时 长 达 156 位 。 ( 我 在 本 章 中 
讲 的 都 是 十 进 制 数 6~9， 而 不 是 二 进 制 数 6 和 1 ， 二进制 数 在 计算 机 通信 中 要 更 经 常 被 
用 到 。 ) 重点 是 ， 校 验 和 的 长 度 ( 要 么 和 上 面 的 例子 一 样 是 2 位 ， 要 么 和 在 实际 中 运 
用 的 校 验 和 一 样 ， 有 近 156 位 ) 是 固定 的 。 不 过 ， 尽 管 所 有 校 验 和 算法 生成 的 校 验 和 
长 度 都 是 固定 的 ， 只 要 你 愿意 ， 你 都 能 计算 消息 的 校 验 和 。 因 此 ， 对 于 非常 长 的 消 
息 来 说 ， 即 便 一 个 相对 较 大 的 校 验 和 ( 如 158 位 数 ) ， 最 终 和 消息 本 身 相 比 也 极 小 。 
比如 ， 假 设 你 从 互联 网 上 下 载 了 一 个 26 兆 的 软件 包 ， 你 使 用 了 一 个 168 位 数 的 校 验 和 
来 验证 它 的 正确 性 。 软 件 包 的 校 验 和 也 比 不 上 软件 包 大 小 的 十 万 之 一 。 我 敢 肯 定 ， 
你 会 认为 这 个 杂项 水 平 可 以 接受 ! 而 数学 家 会 告诉 你 ， 使 用 这 种 长 度 的 校 验 和 侦 测 
错误 ， 其 失败 的 概率 极其 微小 ， 在 现实 中 几乎 不 可 能 失败 。 


和 前 面 一 样 ， 这 里 也 有 几 处 重要 的 技术 细节 。 并 不 是 任何 一 个 百 位 数 校 验 和 系 
统 对 失败 都 有 如 此 高 的 抵抗 性 。 这 需要 一 种 被 计算 机 科学 家 称 为 加 密 哈 希 函数 
(cryptographic hash function ) 的 特定 校 验 和 ， 尤 其 是 在 悉 意 政 人 而 非 糟糕 
言 道 的 随机 变动 对 信息 作出 改变 时 。 这 是 个 非常 现实 的 问题 ， 因 为 也 许 就 有 一 名 政 
恶 黑客 试图 更 改 这 个 26 兆 的 软件 包 ， 并 让 其 具有 相同 的 168 位 校 验 和 数 ， 而 这 个 不 同 
的 软件 其 实 是 要 控制 你 的 计算 机 ! 使 用 加 密 哈 希 疯 数 能 消除 这 种 可 能 性 。 


定位 把 戏 


既然 知道 了 校 验 和 ， 现 在 我 们 可 以 回 到 最 初 同时 侦 测 和 纠正 通信 错误 的 问题 上 
了 。 我 们 已 经 知道 如 何 做 到 这 一 点 ， 要 么 使 用 低 效 的 重复 把 戏 ， 要么 使 用 高 效 的 元 
余 把 戏 。 但 还 是 让 我 们 先 回 到 这 个 问题 ， 因 为 我 们 从 未 真正 地 了 解 代码 字 是 如 何 创 
造 的 ， 而 代码 字 则 是 这 些 把 戏 的 关键 成 分 。 我 们 的 确 有 用 英语 单词 拍 述 数字 的 例 
子 ， 但 那 种 代码 字 不 如 计算 机 实际 使 用 的 代码 字 高 效 。 我 们 也 看 过 一 段 汉 明 代码 的 
真实 例子 ， 但 没有 解释 一 开始 代码 字 是 如 何 生 成 的 。 


因此 ， 现 在 我 们 要 学 习 另 一 套 可 能 的 代码 字 ， 用 来 执行 元 余 把 戏 。 因 为 这 种 元 
余 把 戏 很 特别 ， 它 能 让 你 迅速 定位 一 处 错误 ， 我 们 称 其 为 “定位 把 戏 ” ( the 


pinioint trick ) 。 


正如 我 们 在 校 验 和 把 戏 中 做 的 一 样 ， 我 们 将 和 完全 由 数字 6~9 组 成 的 消息 打 交 
道 ， 但 你 要 记 住 ， 这 只 是 为 了 方便 起 见 。 将 字母 消息 转译 成 数字 很 简单 ， 因 此 在 这 
里 描述 的 技术 能 被 应 用 到 任何 消息 上 。 

为 简单 起 见 ， 让 我 们 假设 消息 恰好 有 16 个 数字 ， 但 这 并 非 该 技术 在 现实 中 的 应 
用 。 如 果 你 有 一 条 长 消息 ， 将 其 打 碎 成 16 位 数 长 的 块 ， 并 单独 处 理 每 块 数据 。 如 果 
消息 比 16 个 数字 短 ， 用 8 补 成 16 位 数 。 


定位 把 戏 的 第 一 步 是 重新 排列 消息 中 的 16 个 数 ， 将 其 排列 成 一 个 从 左 往 右 、 自 
上 向 下 读 的 方 框 。 如 果实 际 消息 是 : 


4837543622563997 


重新 排列 为 : 





下 一 步 ， 我 们 计算 每 一 行 的 校 验 和 ， 并 添加 在 每 行 的 右 侧 : 





这 些 简单 校 验 和 的 计算 方式 和 前 面 一 样 。 比 如 ， 要 得 到 第 二 行 的 校 验 和 ， 你 需 
要 计算 5+4+3+6 = 18， 并 保留 最 后 一 位 数 8。 


定位 把 戏 的 下 一 步 是 计算 每 一 栏 的 简单 校 验 和 ， 并 添加 在 每 列 的 底部 : 








和 前 面 一 样 ， 求 简单 校 验 和 的 方法 很 清楚 。 比 如 ， 要 得 到 第 二 行 的 校 验 和 ， 你 
需要 计算 3+3+5+9 = 26， 并 保留 最 后 一 位 数 8。 

定位 把 戏 的 下 一 步 是 重新 排列 所 有 数 ， 让 其 能 以 一 次 一 个 数 的 方式 存储 或 传 
输 。 你 通过 从 左 往 右 、 自 上 向 下 读 的 方式 读数 。 因 此 ， 最 后 你 会 得 到 如 下 24 位 数 的 
消息 : 

483725436822565399784366 

现在 ， 想象 你 已 经 收 到 了 一 条 使 用 定位 把 戏 传输 的 消息 。 你 需要 采取 哪些 步骤 
来 得 到 原始 消息 ， 纠 正 其 中 出 现 的 任何 通信 错误 ? 让 我 们 举 个 例子 来 说 明 。 原 始 的 
16 位 数 消息 和 上 面 的 一 样 ， 但 为 了 让 事情 变 得 更 有 趣 ， 假 设 出 现 了 一 处 通信 错误 ， 
其 中 一 个 数 被 替换 了 。 现 在 还 不 必 担 心 被 替换 的 数 是 哪个 ， 我 们 很 快 就 能 运用 定位 
把 戏 来 确定 。 

假设 你 收 到 的 24 位 数 消息 是 : 


483725436827565399784306056 


你 要 做 的 第 一 步 束 是 把 数字 放 入 一 个 五 行 五 列 的 方 框 中 ， 最 后 一 行 和 最 后 一 列 
都 对 应 随 原 始 消 息 一 起 友 送 的 校 验 和 数字 : 





接 下 来 ， 计 算 每 一 行 每 一 列 四 个 数 的 简单 校 验 和 ， 在 接收 到 的 校 验 和 值 旁 边 新 
建 一 行 和 一 列 ， 并 在 其 中 记录 计算 结果 : 





这 里 会 出 现 两 组 校 验 和 值 : 你 友 送 的 ， 以 及 你 计算 出 来 的 ， 记 住 这 一 点 全 天 重 
要 。 在 绝 大 多 数 情 况 下 ， 两 套 值 都 一 样 。 事 实 上 ， 如果 它 们 都 一 样 ， 你 可 以 得 出 结 


论 ， 收 到 的 消息 极 有 可 能 是 正确 的 。 但 如 果 出 现 一 个 通信 和 错误， 计算 得 出 的 一 些 校 
验 和 值 会 和 友 送 的 不 同 。 注 意 ， 这 个 例子 中 有 两 个 不 同 乙 处 : 第 三 行 的 5 和 6 不同 ， 
第 二 列 的 3 和 8 不 同 。 冲 突 的 校 验 和 在 框 中 被 标注 了 出 来 : 





关键 在 于 : 这 些 不 同 之 处 的 位 置 正好 说 明了 通讯 错误 出 现 的 位 置 ! 错误 肯定 是 
在 第 三 行 ( 因为 其 他 行 的 校 验 和 都 正确 ) ， 错 误 也 肯定 是 出 现在 第 二 列 ( 因为 其 他 
列 的 校 验 和 都 正确 ) 。 正 如 你 能 在 下 图 中 看 到 的 ， 这 将 错误 的 可 能 性 圈定 为 一 种 
框 中 标 出 的 7 : 











但 这 还 不 是 全 部 ， 我 们 定位 了 错误 ， 但 还 没 纠正 它 。 幸 运 的 是 ， 很 容易 做 到 这 
一 点 : 我 们 只 要 用 一 个 能 让 两 个 校 验 和 都 正确 的 数字 蔡 换 出 错 的 7 即 可 。 我 们 能 
出 ， 第 二 栏 的 校 验 和 本 应 为 3， 但 结果 却 是 8。 换 句 话说 ， 校 验 和 需要 减 5。 我 们 把 错 
误 的 7 减 5， 得 到 2 : 





你 甚至 可 以 通过 检查 第 三 行 来 验证 这 一 改变 。 第 三 行 的 校 验 值 现在 变 成 了 5， 和 
收 到 的 校 验 和 一 致 。 错 误 同 时 做 定位 和 纠正 了 ! 最 后 一 步 很 明显 ， 残 是 将 纠正 后 的 
原始 16 位 数 消息 从 五 行 五 列 的 框 中 取出 ， 方 法 是 从 左 往 右 ， 目 上 向 下 读 ( 当然 要 忽 
略 最 后 一 行 和 最 后 一 询 ) 。 结 果 是 : 
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这 和 我 们 一 开始 用 到 的 消息 相同 。 


在 计算 机 科学 中 ， 定 位 把 戏 的 名 称 是 “二 维 奇 偶 校 验 码 ” ( two-dimensional 
parity ) 。 奇 偶 校 验 码 这 个 词 的 意思 和 简单 校 验 和 一 样 ， 计算 机 在 处 理 二 进 制 数字 
时 经 常用 到 它 。 而 奇偶 校 验 码 被 形容 为 二 维 ， 是 因为 消息 放 在 有 两 个 维度 的 表格 
( 行 和 列 ) 中 。 二 维 奇 偶 校 验 码 在 一 些 真正 的 计算 机 系统 中 也 有 运用 ， 但 并 不 如 其 
他 一 些 郊 余 把 戏 高 效 。 我 在 这 里 解释 它 的 原因 是 ， 它 能 很 容易 地 具 化 并 展现 在 不 要 
求 复杂 数学 的 情况 下 ， 于 当今 计算 机 系统 中 的 流行 代码 背后 发 现 并 纠正 错误 的 风 
味 。 


现实 世界 中 的 纠 错 及 个 绒 


纠 错 码 于 28 世 纪 96 年 代 问 世 ， 距离 电子 计算 机 诞生 后 不 久 。 回 顾 一 下 不 难看 出 
原因 : 早期 计算 机 相当 不 可 靠 ， 组 件 经 常 产 生 错 误 。 但 纠 错 码 的 真正 根源 出 现 得 还 
要 早 ， 根 源 在 电报 和 电话 等 通信 系统 中 。 因 此 ， 这 两 大 导致 纠 错 码 发 生 的 事件 都 发 
生 在 贝尔 电话 公司 的 研究 实验 室 中 也 就 不 奇怪 了 。 我 们 故事 中 的 两 位 英雄 克 劳 德 . 香 
农 ( Claude Shannon ) 和 理 查 德 . 汉 明 都 是 贝尔 实验 室 的 研究 人 员 。 前 面 已 经 介绍 
了 汉 明 : 正 是 因为 他 对 公司 计算 机 在 周末 骨 溃 的 愤怒 ， 直 接 导致 了 第 一 批 纠 错 码 的 
上 友 明 ， 也 融 是 现在 同名 的 汉 了 明代 码 。 

不 过 ， 纠 错 码 只 是 一 个 更 大 专业 的 一 部 分 ， 这 个 专业 被 称 为 信息 理论 学 

(information ”theory ) ， 而 绝 大 多 数 计算 机 科学 家 将 信息 理论 学 的 诞生 归 因 于 
克 劳 德 :香农 在 1948 年 友 表 的 一 篇 论文 。 香 农 的 一 本 自传 中 将 这 篇 名 为 《通信 的 数学 


理论 》 (The Mathematical Theory of Communication ) 的 卓越 论文 形容 
为 “信息 时 代 的 大 完 草 ”。 欧 文 :里 德 ( Irving ”Reed ) 这 人 么 形容 这 篇 论文 : “本 世 
纪 只 有 几 件 事 能 在 对 科学 和 工程 学 的 影响 力 上 超越 ( 这 篇 论文 ) 。 通 过 这 篇 里 程 碑 
式 的 论文 .…. 他 极 大 地 改变 了 通信 理论 和 实践 的 所 有 方面 。” ”欧文 :里 德 
农 代码 的 共同 发 明 人 ， 我 们 将 在 下 面 提 到 里 德 一 香农 代码 。 为 什么 赞誉 如 此 之 高 ? 
香农 通过 数学 展示 了 ， 有 可 能 从 根本 上 通过 一 个 嘲 杂 的 、 引 友 错 误 的 链接 实现 错误 
率 极 低 的 通信 。 和 直到 数 十 年 后 ， 科 学 家 们 才 在 现实 中 接近 实现 了 香农 的 理论 最 大 通 
信 率 。 


强 
f 徊 
由 
下 
嘱 


顺便 说 一 下 ， 香 农 的 兴趣 非常 广泛 。 作 为 1956 年 达 特 茅 斯 人 工 智能 大 会 ( 将 在 
第 六 草木 谈 到 ) 的 四 位 主要 组 织 者 之 一 ， 他 积极 参与 了 另 一 领域 的 创立 : 人 工 智 
能 。 这 还 没 宛 。 他 还 骑 单 轮 车 ， 并 制造 了 一 辆 令 人 难以 置信 的 单 轮 和 车。 这 辆 单 轮 车 
有 一 个 椭圆 轮子 ， 意味 着 车 手 随 着 单 轮 车 前 进 可 以 上 下 移动 ! 


香农 的 工作 将 汉 明 代码 放 到 了 一 个 更 大 的 理论 环境 中 ， 并 为 许多 深入 发 展 打下 
了 基础 。 自 此 以 后 ， 汉 明代 码 被 用 于 一 些 最 早期 的 计算 机 中 ， 并 仍 广泛 用 于 一 些 特 
定 种 类 的 内 存 系统 中 。 里 德 一 所 罗 |]( Reed-Solomon ) 代码 是 另 一 类 重要 的 代码 。 
这 些 代码 能 被 用 来 纠正 每 个 代码 字 中 的 众多 错误 。[ 与 这 里 的 ( 7， 4 ) 汉 明 代码 
截然 不 同 ， 汉 明代 码 只 能 纠正 7 位 数 代码 字 中 的 一 个 错误 。 ] 里 德 一 所 罗 门 
代码 基于 一 个 名 为 有 限 域 代数 ( finite field algebra ) 的 数学 分 文 ， 但 你 可 以 
非常 粗略 地 想象 ， 它 结合 了 阶梯 校 验 和 及 二 维 定点 把 戏 的 特色 。CcD、DVD 和 计算 机 硬 
盘 中 都 用 到 了 里 德 -一 所 罗 门 代码 。 


校 验 和 在 现实 中 的 运用 也 很 广泛 ， 一 般 是 用 于 侦 测 而 非 纠 正 错误 。 也 许 最 常见 
的 例子 束 算 以 太 网 了 ， 现 今 地 球 上 几乎 所 有 计算 机 都 用 这 一 联网 协议 。 以 太 网 中 应 


用 了 一 种 被 称 为 CRC-32 的 校 验 和 来 侦 测 错误 。 最 为 普遍 的 互联 网 协议 TCP 也 在 其 帮 
送 的 每 块 ( 或 包 ) 数据 上 使 用 校 验 和 。 校 验 和 不 正确 的 包 直接 被 丢弃 了 ， 因 为 TcP 被 
设计 用 来 在 以 后 必要 时 自动 传输 这 些 包 。 友 布 在 互联 网 上 的 软件 包 通 常 使 用 校 验 和 
验证 : 其 中 一 种 流行 的 校 验 和 是 MD5， 另 一 种 是 SHA-1。 这 两 种 校 验 和 都 属于 加 密 哈 
希 函 数 ， 为 抵御 恶意 算 改 软件 提供 保护 ， 也 能 防止 随机 通信 错误。MD5 校 验 和 约 有 46 
位 数 长 ，SHA-1 生 成 的 数 约 有 56 位 。SHA-1 的 同类 校 验 和 中 有 些 抗 错 性 甚至 要 更 好 ， 
如 SHA-256 ( 约 75 位 数 ) 和 SHA-512 ( 约 156 位 数 ) 。 


纠 错 及 侦 测 代码 这 门 科学 不 断 壮 大 。 自 26 世 纪 96 年 代 开 始 ， 一 种 名 为 低 密 度 奇 
偶 校 验 码 ( low-density parity-check codes ) 的 方法 受到 极 大 关注 。 这 些 代 码 
如 今 的 用 途 非 常 广泛 ， 从 卫星 电视 到 通过 深海 光线 进行 的 通信 。 下 次 你 在 周末 享受 
高 清 卫星 电视 时 ， 不 妨 遐 思 一 下 这 个 令 人 回味 的 反讽 : 正 是 由 于 理 查 德 : 汉 明 在 周末 
与 早期 计算 机 的 斗争 中 产生 了 困扰 ， 才 有 了 我 们 现在 周末 的 娱乐 。 


第 六 章 
2 识别 
一 一 从 经 验 中 学 习 


分 析 引 警 没有 原创 任何 东西 的 权利 。 它 只 能 按照 我 们 的 指令 执行 任何 事情 。 


一 一 父 达 . 勒 芙 苗 丝 ( Ada Lovelace ) ， 
摘自 她 1843 年 有 关 分 析 引 擎 的 笔记 


在 前 面 各 章 我 们 探索 的 领域 里 ， 计 算 机 的 能 力 都 要 远 超 人 的 能 力 。 比 如 ， 计 算 
机 通常 可 以 在 一 两 秒 内 加 密 或 解密 一 个 大 文件 ， 而 人 通过 手动 计算 执行 相同 的 任务 
则 需要 数 年 时 间 。 举 个 更 极端 的 例子 ， 想 象 一 下 ， 假 设 让 人 根据 第 三 章 中 描述 的 算 
法 手动 计算 数 十 亿 网 页 的 PageRank 权 重 。 这 项 任务 太 大 ， 在 现实 中 我 们 不 可 能 完成 
这 项 任务 。 但 互联 网 搜索 公司 的 计算 机 在 持续 不 断 地 执行 这 些 计 算 。 


而 在 本 章 ， 我 们 将 审视 一 个 人 类 具有 天 然 优势 的 领域 : 图 形 识别 领域 。 图 形 识 
别 是 人 工 智 能 的 一 部 分 ， 包 括 面部 识别 、 物 体 识别 、 语 音 识 别 和 笔迹 识别 等 任务 。 
更 具体 的 例子 ， 如 判定 一 张 照片 是 不 是 你 姊妹 的 照 上 请 ， 或 判定 手写 信封 上 的 城市 及 
州 名 。 因 此 ， 图 形 识 别 可 以 更 通俗 地 定义 为 ， 让 计算 机 基于 输入 数据 “ 职 明 地 ” 行 
动 的 任务 ， 这 尝 数据 包含 大 量 的 变量 。 


给 “聪明 地 ”加 双 引 号 的 理由 很 充分 : 计算 机 是 否 能 展现 出 真正 的 智能 ， 这 个 
问题 具有 高 度 争 议 性 。 本 章 的 开篇 引言 代表 了 这 一 争论 中 最 早 的 论述 之 一 : 艾 达 . 勒 
关 蕾 丝 于 1843 年 就 一 台 早 期 机 械 计 算 机 的 设计 友 表 评论 ， 这 人 台 早 期 计算 机 被 称 为 分 
析 引 敬 ( Analytical Engine ) 。 但 在 这 一 声明 中 ， 她 着 重 说 明了 计算 机 缺乏 原创 
性 : 它们 必须 严格 遵循 人 类 程序 员 的 指令 。 一 段 时 间 以 来 ， 计 算 机 科学 家 们 就 计算 
机 能 人 否 从 根本 上 展现 出 智能 争论 不 休 。 而 如 果 把 哲学 家 、 神 经 科学 家 和 神学 家 也 算 


上 的 话 ， 这 一 争论 甚 全 会 变 得 更 复杂 。 


舞 运 的 是 ， 我们 不 必 在 本 章 解 决 机 器 智能 的 悖 论 。 从 我 们 的 目的 出 发， 我 们 最 
好 还 是 将 “智能 ”这 个 词 换 成 “有 用 ”。 因 此 ， 图 形 识别 的 基本 任务 束 是 处 理 一 些 
变量 极 多 的 数据 一 一 如 不 同 光 照 环 境 下 的 各 种 人 脸 照 上 请， 或 不 同人 书写 许多 不 同 字 
的 笔迹 样本 一 一 并 做 一 些 有 用 的 事 。 毫 无 疑问 ,人 能 够 智能 地 处 理 这 些 数 据 : 我 们 
能 以 令 人 难以 置信 的 精确 度 识 别人 脸 ， 能 在 不 提前 查看 其 他 人 笔迹 样本 的 情况 下 ， 


阅读 几乎 所 有 人 的 笔迹 。 计 算 机 在 处 理 这 些 任 务 上 远 不 如 人 。 但 已 经 有 一 些 精 妙 的 
算法 出 现 ， 能 让 计算 机 很 好 地 执行 一 些 特定 的 图 形 识别 任务 。 在 本 章 ， 我 们 将 学 习 
三 种 这 样 的 算法 : 最 近邻 分 类 器 ( nearest-neighbor classifier ) 、 决 策 树 
( decision tree ) 以 及 人 工 神 经 网 络 ( artificial neural network ) 。 但 首 
先 ， 我 们 要 对 尝试 解决 的 问题 进行 更 科学 的 摘 述 。 


从 一 开始 看 ， 图 形 识 别 的 任务 种 类 多 得 似乎 超 乎 寻 单 。 计 算 机 能 使 用 一 个 单独 
的 图 形 识 别 技术 工具 包 来 识别 笔迹 、 面 部 、 语 音 及 更 多 车 西 吗 ? 这 一 问题 的 可 能 答 
案 之 一 是 : 盯 着 我 们 的 脸 看 , 人 脑 在 处 理 多 种 多 样 的 识别 任务 上 速度 超 快 、 精 确 度 
超 高 。 我 们 能 编写 一 个 计算 机 程序 来 做 到 相同 的 事 吗 ? 


在 讨论 那样 一 个 程序 可 能 用 到 的 技术 之 前 ， 我 们 需要 统一 令 人 眼花 综 乱 的 多 种 
任务 ， 定 义 一 个 单一 问题 让 我 们 来 尝试 解决 。 要 实现 这 一 点 ， 标 准 做 法 是 将 图 形 识 
别 看 作 分 类 问题 。 我 们 假设 要 处 理 的 数据 被 分 解 成 合理 大 小 的 块 ， 这 些 块 被 称 
为 “样本 ”， 每 一 个 样本 都 属于 可 能 “类 ” ( class ) 的 固定 集 之 一 。 比 如 ， 在 一 个 
人 脸 识 别 间 题 中 ， 每 一 个 样本 都 是 一 张 人 脸 图 片 ， 而 类 则 是 系统 能 识别 出 的 这 些 人 
的 身份 。 有 一 些 问题 只 有 两 个 类 。 这 万 面 的 常见 例子 是 对 一 种 特殊 疾病 的 医学 诊 
断 ， 而 其 中 的 两 个 类 也 许 是 “健康 ”和 “得 病 ”， 这 样 每 个 数据 样本 束 能 组 成 单个 
病人 的 所 有 诊断 结果 ( 比如 ， 血压、 体重 、x 光 照片 以 及 其 他 很 多 方面 ) 。 因 此 ， 计 
算 机 的 任务 融 是 处 理 其 从 未 见 过 的 新 数据 样本 ， 并 将 每 个 样本 分 到 可 能 的 一 个 类 
中 。 


具体 来 讲 ， 接 下 来 让 我 们 集中 精力 于 一 个 图 形 识别 任务 。 这 个 任务 是 识别 手写 


数字 ， 其 中 一 些 典 型 样本 在 下 文 的 图 中 有 显示 。 这 个 问题 里 正好 有 16 个 类 : 数字 6、 
1、2、3、4、5、6、7、8 和 9。 因 此 ， 任 务 束 是 将 手写 数字 样本 分 到 其 所 属 的 类 

中 。 当 然 ， 这 是 个 有 着 巨大 实际 影响 的 问题 ， 因 为 美国 和 其 他 国家 都 使 用 数字 邮编 
表示 地 址 。 如 果 计算 机 能 快速 且 精 确 地 识别 这 些 邮 编 ， 机 器 分 类 信件 的 速度 残 要 比 


人 类 高 效 得 多 。 


很 显然 ， 计 算 机 并 没有 内 建 手写 数字 是 什么 样 的 知识 。 事 实 上 ， 人 类 也 没有 这 
种 内 建 知识 : 通过 结合 其 他 人 的 详尽 教授 以 及 观看 我 们 用 来 教授 自己 的 例子 ， 我 们 
学 会 了 如 何 去 识 别 数字 及 其 他 手写 符号 。 这 两 种 策略 ( 详尽 教授 和 从 例子 中 学 习 ) 
也 被 用 于 计算 机 图 形 识 别 。 不 过 ， 结 果 显示 ， 即 便 是 最 入 单 的 任务 ， 详 尽 教 授 计 算 
机 也 非常 低 效 。 比 如 ， 可 以 将 我 房子 中 的 环境 控制 看 作 一 个 简单 的 分 类 系统 。 数 据 
样本 包含 当前 温度 和 时 间 ， 三 个 可 能 的 类 分 别 是 “开局 供暖 ”、“ 开 局 空 
调 ” 和 “两 者 均 关 闭 ”。 因 为 我 日 天 在 办 公 室 工 作 ， 我 在 日 天 就 将 系统 设置 为 “两 
者 均 天 闭 ”， 而 在 这 些 时间 之 外 ， 如 果 温 度 过 低 就 会 “开启 供暖 ”， 如 果 温 度 过 高 
融会 “开局 空调 ”。 因 此 ， 在 设置 温度 调节 器 的 过 程 中 ， 我 在 某 种 程度 上 “ 教 


授 ” 了 系统 针对 这 三 个 类 执行 分 类 。 


不 幸 的 是 ， 没 人 能 详尽 地 “教授 ”计算 机 解决 更 有 趣 的 分 类 任务 ， 如 下 一 页 的 
手写 数字 。 因 此 计算 机 科学 家 们 转向 另 一 种 策略 : 让 计算 机 自动 “学 习 ” 如 何 分 类 
样本 。 基 本 策略 是 给 计算 机 大 量 标记 数据 ( labeled data ) : 已 经 馈 分 类 的 样本 。 
后 面 的 图 残 给 出 了 一 毕 用 于 手写 数字 任务 的 标记 数据 。 因 为 每 个 样本 都 市 有 一 个 标 
签 ( 也 丈 是 它 的 类 ) ， 计 算 机 能 运用 多 种 分 析 把 戏 提取 出 每 个 类 的 特性 。 之 后 再 向 
计算 机 提供 一 个 未 标记 的 样本 ， 通 过 选择 和 未 标记 样本 特性 最 接近 的 样本 ， 计 算 机 
能 推测 未 标记 样本 的 类 。 


“训练 数据 ”。 


, 而 标记 数据 则 是 
: 首先 是 训练 阶段 ,计算 机 基于 一 


其 次 是 分 类 阶段 ， 计算机 对 


训练” 


图 形 识 别 任务 分 为 两 个 阶段 


学 习 每 个 类 特性 的 过 程 通 弟 被 称 为 


因此 ， 概 括 来 说 ， 


此 


的 未 标记 的 数据 样本 进行 分 


新 


标记 训练 数据 学 习 类 ; 
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数字 分 到 数字 6、1、 


写 


, 计算 机 的 任务 是 将 每 个 手 


在 这 个 例子 中 


可 以 说 绝 大 多 数 图 形 识 别 任务 都 是 分 类 问题 。 
…、9 的 一 个 类 中 去 。 


数据 来 源 : 乐 康 ( LeCun ) 等 人 的 MNIST 数 据 。 


最 近邻 分 类 把 戏 


下 面 这 个 分 类 任务 很 有 趣 : 你 能 只 根据 一 个 人 的 家 庭 住址 ， 预 测 那个 人 会 向 哪 
个 政治 党 派 捐赠 吗 ? 很 显然 ， 这 个 例子 中 的 分 类 任务 不 能 以 完美 的 精确 度 执 行 ， 即 
便 是 人 也 不 行 : 一 个 人 的 地 址 并 不 能 透露 足够 多 的 信息 让 你 预测 这 个 人 的 政治 倾 
向 。 不 过 ， 不管 怎 样 ， 我们 都 愿意 训练 一 个 分 类 系统 ， 让 其 仅仅 根据 房屋 地 址 ， 预 


测 这 个 人 最 有 可 能 向 哪个 政党 捐赠 。 
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要 训练 一 个 分 类 器 ， 计 算 机 需要 一 些 标记 数据 。 在 这 个 例子 中 ， 每 个 数据 样本 ( 一 个 手写 数字 ) 都 带 有 一 个 表明 




















其 所 属 具 体 数字 的 标签 。 标 签 在 左边 ， 训 练 样本 在 右边 框 内 。 
数据 来 源 : 乐 康 ( LeCun ) 等 人 的 MNIST 数 据 。 

下 页 的 图 显示 了 一 些 可 能 被 用 于 这 一 任务 的 训练 数据 。 这 张 图 是 2668 年 美国 总 
统 大 选中 堪萨斯 州 一 个 社区 居民 实际 捐赠 的 地 图 。 ( 也 许 你 会 对 这 个 社区 的 名 字 感 
兴趣 ， 这 是 堪萨斯 州 威 奇 塔 市 学 院 山 社区 。 ) 为 便于 辨认 ， 地 图 上 并 没有 显示 街道 
名 ， 但 捐赠 了 的 每 栋 房 屋 的 实际 地 理 位 置 都 在 地 图 上 进行 了 精确 的 标记 。 向 民主 党 
人 捐赠 的 房屋 被 标记 为 “D”， 向 共和 党 人 捐赠 的 房屋 被 标记 为 “R”。 


训练 数据 如 此 之 多 。 当 有 一 个 新 样本 需要 被 分 为 民主 党 人 或 共和 党 人 时 ， 我 们 
要 怎么 做 ? 下 面 的 图 具体 地 展示 了 这 个 例子 。 训 练 数据 和 上 一 幅 图 中 的 一 样 ， 但 另 
外 添加 了 两 处 用 问号 表示 的 新 地 点 。 让 我 们 首先 天 注 上 方 的 问号 。 只 是 营 一 眼 ， 不 
用 尝试 做 任何 科学 的 事 ， 你 党 得 这 个 间 号 最 后 可 能 属于 哪 一 类 ? 这 个 间 号 似乎 被 民 
主 党 人 捐赠 所 围绕 ， 因 此 “D” 似 乎 是 个 相当 有 可 能 的 选项 。 那 男 一 个 在 左下 方 的 间 
号 呢 ? 这 个 问号 并 没有 完全 被 共和 党 人 捐赠 围绕 ， 但 其 所 在 位 置 更 像 是 在 共和 党 人 
领地 而 非 民 主 党 人 领地 内 ， 因 此 “R” 会 是 个 好 推测 。 





用 于 预测 政党 捐赠 的 训练 数据 。“D” 代表 向 民主 党 人 捐赠 的 房屋 ，“R” 代 表 向 共和 党 人 捐赠 的 房屋 。 
数据 来 源 : 《 哈 芬 顿 邮 报 》， 选 金 竞赛 项 目 ( Fundrace project ) 。 


不 管 你 是 否 相 信 ,我 们 刚刚 掌握 了 运 今 为 止 友 明 的 最 强大 、 最 有 用 的 图 形 识别 
技术 之 一 : 一 种 被 计算 机 科学 家 称 为 最 近邻 分 类 器 的 方法 。“ 最 近邻 ”把 戏 做 的 
事 ， 正 如 其 名 字 所 表达 的 含义 一 样 。 当 你 获得 一 个 未 分 类 的 数据 样本 时 ， 首 先 在 训 
练 数据 中 寻找 该 样本 的 最 近邻 ， 其 次 将 最 近邻 所 属 的 类 作为 你 的 预测 。 在 下 图 中 ， 
这 融 是 推测 离 每 个 问号 最 近 的 字母 。 


这 一 把 戏 另 一 个 稍微 成 玖 的 版 本 被 称 为 “K 个 最 近邻 ” (Kk nearest- 


neighbors ) ，K 代 表 3 或 5 这 样 的 小 数字 。 在 这 张 图 中 ， 你 要 检查 问号 的 K 个 最 近 
邻 ， 并 选择 在 这 些 邻 近 对 象 中 最 受 欢迎 的 类 。 我 们 可 以 在 下 图 中 看 到 实例 。 在 这 
里 ， 离 问号 最 近 的 一 个 相 邻 对 象 是 共和 党 人 捐赠 ， 因 此 最 近邻 把 戏 最 简单 的 形式 会 
将 这 个 问号 归 为 “R”。 但 如 果 我 们 转 而 使 用 3 个 最 近邻 方法 ， 我 们 发 现 其 中 有 两 家 
是 民主 党 捐赠 ， 一 家 是 共和 党 捐赠 一 一 在 这 一 特定 组 合 的 社区 中 ， 民 主 党 捐赠 要 更 
受 欢迎 ， 于 是 问号 被 归 为 “D”.。 





那么 ， 我 们 该 使 用 多 少 相 邻 对 象 呢 ? 答案 取决 于 要 处 理 的 问题 。 一 般 来 说 ， 实 
际 工作 者 会 尝试 几 个 不 同 的 值 ， 看 哪个 值 效 果 最 好 。 这 听 起 来 也 许 不 科学 ， 但 却 反 
上 映 了 有 效 图 形 识 别 系统 的 现实 。 有 效 的 图 形 识别 系统 一 般 是 通过 组 合 运用 数学 洞 
见 、 民 好 的 判断 及 实际 经 验 创造 出 来 的 。 





使 用 最 近邻 把 戏 进行 分 类 。 每 个 问号 都 被 归 为 其 最 相 邻 对 象 所 属 的 类 。 上 面 的 问号 是 “D”， 而 下 方 的 问号 则 
是 “所 。 


数据 来 源 : 《 哈 芬 顿 由 报 》， 选 金 竞赛 项 目 ( Fundrace project ) 。 


不 同类 型 的 “最 近 ” 邻 


到 目前 为 止 ， 我 们 所 着 手 的 问题 是 经 过 特意 挑选 的 ， 以 便 人 简单、 直观 地 解释 一 
个 数据 样本 成 为 另 一 个 数据 样本 “最 近 ” 邻 的 含义 。 因 为 每 个 数据 点 都 在 地 图 上 标 
示 了 出 来 ， 我 们 只 需 使 用 点 与 点 之 间 的 地 理 距离 ， 就 能 得 出 相距 最 近 的 点 。 但 在 每 
个 数据 样本 都 是 像 前 文 图 中 的 手写 数字 时 ， 我 们 该 怎么 办 呢 ? 我 们 需要 一 些 方法 来 


计算 两 个 不 同 手 写 数 字 示 例 之 间 的 “距离 ”。 下 面 的 图 融 展 示 了 这 样 一 种 方法 。 


这 一 方法 的 基本 理念 是 衡量 数字 图 像 之 间 的 区 别 度 ， 而 非 它们 之 间 的 地 理 距 
离 。 区 别 度 以 百分比 形式 衡量 一 一 区 别 度 只 有 1% 的 图 像 是 非常 相近 的 邻 ， 而 区 别 度 
在 99% 的 图 像 则 相差 很 远 。 图 中 给 出 了 具体 例子 。 ( 在 图 形 识 别 任务 中 ， 输 入 的 信息 
会 进行 一 些 预 处 理 步骤 ， 这 种 情况 很 普遍 。 在 本 例 中 ， 每 个 数字 都 被 调整 为 同一 大 
小 ， 并 位 于 图 像 中 心 。 ) 在 图 中 最 上 方 的 一 行 中 ， 我 们 能 看 到 两 张 不 同 的 手写 2 图 
像 。 通 过 对 这 些 图 像 进行 某 种 程度 的 “减法 ”， 我 们 得 到 了 右边 的 图 像 。 这 张 图 像 
的 其 余地 万 都 是 日 色 ， 只 有 这 两 张 图 像 不 同 的 少数 地 万 为 黑色 。 结 果 显 示 ， 这 张 区 
分 度 图 像 只 有 6% 的 地 方 是 黑色 的 ， 因 此 这 两 个 手写 2 图 像 是 相对 近邻 。 另 一 方面 ， 企 
图 中 最 下 方 的 一 行 ， 我 们 能 看 到 不 同 数字 图 像 ( 一 个 2 和 一 个 9 ) 削减 后 的 结果 。 右 
边 的 区 分 度 图 像 有 众多 黑 像 素 点 ， 因 为 这 两 张 手写 数字 图 像 在 很 多 地 方 不 同 。 事 实 
上 ， 这 张 区 分 度 图 像 有 21% 的 地 方 是 黑色 的 ， 因 此 这 两 张 手写 图 像 并 非特 别 临 近 的 


邻 。 


[6% difference] 


[21% difference] 





计算 两 个 手写 数字 的 “距离 ”。 企 每 一 行 ， 都 要 用 第 一 张 图 减 去 第 二 张 图 ， 并 得 出 右边 的 新 图 像 ， 新 图 像 中 突出 
了 这 两 张 图 中 的 区 别 。 区 分 度 图 像 中 突出 部 分 所 占 的 百分比 ， 就 能 被 视 为 原始 图 像 之 间 的 “距离 ”。 
数据 来 源 : 乐 康 ( LeCun ) 等 人 的 MNIST 数 据 ，1998 年 。 


现在 我 们 了 解 了 如 何 计算 手写 数字 之 间 的 “距离 ”， 那 么 为 它们 建立 一 个 图 形 
识别 系统 融 容 易 了 。 我 们 从 大 量 训 练 数据 一 一 融 像 前 文 图 中 的 手写 数字 一 样 ， 但 例 
子 要 多 得 多 一 一 开始 。 这 类 图 形 识别 系统 的 标准 系统 可 能 会 使 用 十 万 个 标记 例子 。 
当 给 予 系统 一 个 未 标记 的 新 手写 数字 时 ， 系 统 会 在 十 万 个 例子 中 搜寻 ， 以 找到 一 个 
和 被 分 类 的 例子 最 接近 的 邻 。 记 住 ， 当 我 们 在 这 里 说 “最 近邻 ”时 ， 我 们 真正 说 的 
是 最 小 的 区 分 度 ， 通 过 上 图 中 的 方法 计算 。 示 标记 数字 会 被 打上 和 最 近邻 一 样 的 标 
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结果 表明 ， 使 用 这 种 “最 近邻 ”距离 方法 的 系统 效果 相当 好 ， 精 确 度 接近 97%。 
研究 人 员 们 投入 了 巨大 精力 去 寻找 更 加 成 熟 的 “最 近邻 ”距离 定义 。 运 用 最 先进 的 
距离 衡量 法 ， 最 近邻 分 类 器 在 手写 数字 上 的 精确 度 能 超过 99 . 5%。 这 一 精确 度 能 和 复 
杂 得 多 的 图 形 识别 系统 相 比 ， 比 如 名 字 很 好 听 的 “支持 向 量 机 ” ( support vector 
machine ) 和 “回旋 神经 网 络 ” ( convolutional neural network ) 。 最 近邻 把 
戏 是 计算 机 科学 的 一 个 真正 的 奇迹 ， 它 将 赏心悦目 的 简洁 性 和 令 人 印象 深刻 的 高 效 
性 结合 在 了 一 起 。 


之 前 我 曾 强调 ， 图 像 识 别 系统 分 为 两 个 阶段 运行 : 学 习 ( 训练 ) 阶段 会 处 理 训 
练 数据 ， 提取 类 别 中 的 一 些 特 性 ; 分 类 阶段 会 为 未 标记 的 新 数据 分 类 。 那 么 ， 我 们 
此 前 审视 的 最 近邻 分 类 器 的 学 习 阶 段 呢 ? 似乎 尽管 我 们 获得 了 训练 数据 ， 却 并 未 费 
力气 去 从 中 学 得 任何 东西 ， 而 是 直接 使 用 最 近邻 把 戏 跳 到 了 分 类 阶段 。 这 正 是 最 近 
邻 分 类 器 的 特殊 属性 : 它们 无 须 任 何 详尽 的 学 习 阶 段 。 在 下 一 部 分 ， 我 们 将 研究 另 
一 种 分 类 器 ， 在 其 中 学 习 扮 演 一 个 远 为 重要 的 角色 。 


26 个 问题 把 戏 : 决策 树 


“26 个 问题 ”游戏 对 计算 机 科学 家 有 一 种 特别 的 吸引 力 。 在 这 个 游戏 中 ， 一 名 
玩家 想 着 一 个 物体 ， 而 其 他 玩家 必须 依靠 不 超过 26 个 是 非 问题 的 答案 猜测 这 个 物体 
的 身份 。 你 甚至 能 买 到 可 以 和 你 玩 26 个 问题 游戏 的 小 型 手持 设备 。 尽 管 这 个 游戏 大 
多 数 时 候 被 用 于 取乐 儿童 ， 但 成 年 人 玩 这 个 游戏 也 能 获得 令 人 惊讶 的 好 处 。 在 玩 这 
个 游戏 一 段 时 间 后 ， 你 开始 意识 到 有 “好 间 题 ”和 “ 坏 问 题 ”。 好 间 题 肯定 能 给 你 
大 量 “ 人 信息” ( 不 管 这 些 信息 意味 着 什么 ) ， 而 坏 问题 则 不 能 。 比 如 ， 第 一 个 问题 
问 “ 它 是 铜 做 的 吗 ”， 残 是 个 坏 主意 ， 因 为 答案 是 “不 是 ”， 可 能 性 的 范畴 只 被 缩 
小 了 一 点 点 。 这 些 有 关 好 问题 和 坏 问 题 的 直 党 处 于 一 个 极 有 吸引 力 的 领域 一 信息 








理论 学 一 一 的 核心 。 它 们 同样 也 是 一 种 简单 、 强 大 的 图 形 识别 技术 一 一 决策 树 一 一 
的 核心 。 


决策 树 基 本 上 融 是 一 个 提前 计划 的 28 个 问题 游戏 。 下 面 的 图 显示 了 一 个 小 例 
子 。 这 是 一 个 决定 是 否 市 伞 的 决策 树 。 你 只 要 从 决策 树 项 部 开始 ， 按 照 问题 的 答案 
一 路 往 下 即 可 。 当 你 到 达 决 策 树 底 部 的 一 个 框 时 ， 你 也 区 得 到 了 最 终结 果 。 
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-不 
“我 该 带 伞 吗 ” 的 决策 树 。 
你 也 许 在 想 ， 这 和 图 形 识别 及 分 类 有 什么 天 系 ? 答案 是 ， 如 果 你 有 足够 多 的 训 
练 数据 ， 系 统 可 能 会 学 习 一 个 能 进行 精确 分 类 的 决策 树 。 
让 我 们 来 研究 一 个 例子 ， 这 个 例子 基于 一 个 人 们 知之 甚 少 但 却 极其 重要 的 问题 
一 一 网 络 垃 圾 。 我 们 在 第 三 章 中 提 到 过 它 ， 一 些 肆 意 妻 为 的 网 站 操作 人 员 试 图 通过 
人 为 制造 链 向 特定 页 面 的 超 链接 ， 操 纵 搜 索引 警 的 排名 算法 。 这 些 狭 诈 的 网 站 管理 


员 使 用 的 一 个 相关 人生 略 ， 残 是 创建 拥有 特别 修饰 内 容 ， 但 对 人 一 点 用 处 都 没有 的 网 
页 。 你 可 以 在 下 页 的 图 中 看 到 一 小 段 取 上 自 一 个 真实 网 络 垃圾 页 面 的 内 容 。 注 意 ， 那 
张 图 中 的 文本 没有 任何 意义 ， 但 却 重复 列 出 了 和 在 线 学 习 有 关 的 流行 搜索 术语 。 这 
个 网 络 垃圾 网 页 是 为 了 提高 其 链 向 的 特定 人 在线 学 习 网 站 的 排名 。 
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节选 自 一 个 “网 络 垃圾 ”页 面 。 这 个 页 面 没有 任何 对 人 类 有 用 的 信息 一 一 其 唯一 目的 就 是 操纵 网 络 搜索 排名 。 
资料 来 源 : 乐 陶 拉 斯 ( Ntoulas ) 等 人 ，2666 年 。 

自然 ， 搜 索引 警 要 化 费 大 量力 气 去 关 试 辨别 和 消除 网 络 垃圾 。 这 也 是 图 形 识 别 
的 完美 应 用 : 我 们 能 取得 大 量 训练 数据 ( 在 网 络 垃 圾 的 例子 中 就 是 网 页 ) ， 手 动 将 


它们 标记 为 “垃圾 ”或 “ 非 垃圾 ”， 并 训练 某 种 分 类 器 。 这 正 是 微软 研究 院 的 一 些 
科学 家 在 2666 年 做 的 事 。 他 们 发 现 ， 对 这 个 特殊 问题 效果 最 好 的 分 类 器 是 人 们 喜爱 
已 久 的 决策 树 。 下 面 的 图 展示 了 他 们 得 出 的 决策 树 的 一 小 部 分 。 


尽管 完整 的 决策 树 依赖 于 许多 不 同 的 属性 ， 下 面 的 图 展示 的 部 分 决策 树 专 注 于 
页 面 内 文字 的 流行 度 。 网 络 垃圾 制造 者 喜欢 在 页 面 中 加 入 大 量 流行 词 ， 以 提升 他 们 
网 页 的 排名 ， 因 此 流行 词 占 比较 小 ， 也 预示 该 网 页 是 垃圾 的 概率 较 低 。 这 解释 了 决 
策 树 的 第 一 个 决策 ， 其余 决策 遵循 类 似 的 逻辑 。 这 个 决策 树 的 精确 度 在 96% 左 右 
一 一 离 完 美 相差 很 远 。 但 不 管 怎 样 ， 这 是 一 个 对 抗 网 络 垃圾 制造 者 的 无 价 武器 。 













排名 前 1 000 的 词 在 
页 面 中 所 占 的 百分比 


排名 前 500 的 词 在 页 
面 中 所 占 的 百分比 


出 现在 页 面 中 的 前 
500 个 词 的 百分比 


辨别 网 络 垃圾 的 决策 树 的 一 部 分 。 点 代表 部 分 决策 树 出 于 简洁 的 目的 省 略 了 。 
资料 来 源 : 乐 陶 拉 斯 ( Ntoulas ) 等 人 ，2666 年 。 

要 重点 理解 的 不 是 决策 树 本 身 的 细节 ， 而 是 这 一 事实 : 整个 决策 树 是 由 计算 机 
程序 基于 约 1.7 万 个 网 页 上 的 训练 数据 自动 生成 的 。 这 些 “ 训 练 ” 页 面 补 真人 分 


为 “ 志 圾 ”或 “ 非 志 圾 ”。 好 的 图 形 识 别 系统 需要 投入 巨大 的 人 力 ， 但 这 是 一 次 性 
投入 ， 并 能 产生 长 期 回报 。 


和 我 们 之 前 讨论 过 的 最 近邻 分 类 器 相反 ， 决 生 树 分 类 器 的 学 习 阶段 非 单 庞大 。 
这 个 学 习 阶 段 如 何 进行 ? 其 主要 思想 和 规划 好 一 个 26 个 问题 游戏 一 样 。 计 算 机 测试 
大 量 可 能 的 第 一 个 问题 ， 和 寻找 一 个 能 得 出 最 佳 的 可 能 信息 的 问题 。 然 后 ， 计算 机 将 
训练 样本 分 为 两 组 ， 取 决 于 样本 对 第 一 个 问题 的 答案 ， 并 产生 第 二 个 对 这 两 个 组 都 
最 佳 的 可 能 问题 。 计 算 机 一 直 用 这 种 方法 往 决 策 树 底 部 前 进 ， 永 远 基 于 达到 决策 树 
某 一 点 的 训练 示例 集合 来 决定 最 佳 问题 。 如 果 示 例 集合 在 某 一 点 变 得 “纯净 ”，, 也 
束 是 说 ， 集 合 中 只 包含 垃圾 页 面 或 非 拉 圾 页 面 一 一 计算 机 束 能 停止 生成 新 问题 ， 输 
出 对 应 剩余 页 面 的 答案 。 


忌 之 ， 决 策 树 分 类 器 的 学 习 过 程 可 以 很 复杂 ， 但 它 是 全 目 动 的 ， 而 且 你 只 需 
做 一 次 。 在 此 之 后 ， 你 束 得 到 了 上 自己 需要 的 决策 树 ， 而 分 类 阶段 则 极其 简单 : 残 像 
26 个 问题 游戏 一 样 ， 你 按照 问题 的 答案 向 决策 树 底部 移动 ， 直 到 抵达 结果 框 。 基 本 
上 ， 只 需要 少数 问题 ， 因 此 分 类 阶段 极度 高 效 。 同 最 近邻 方法 相 比 ， 最 近邻 方法 在 
学 习 阶 段 无 须 费 力 ， 但 分 类 阶段 要 求 我 们 将 需要 分 类 的 每 个 东西 和 所 有 训 | 练 示例 进 
行 比 对 ( 手写 数字 任务 中 的 示例 数 是 16 万 个 ) 。 


在 下 一 部 分 ， 我 们 会 碰 到 利 经 网 络 : 它 也 是 一 种 图 形 识别 技术 ， 其 学 习 阶段 不 
仅 重 要 ， 而 且 直 接受 到 人 类 和 其 他 动物 从 环境 中 学 习 的 万 法 的 局 友 。 


独 经 网 络 


从 第 一 台数 字 计 算 机 的 创造 开始 ,人 脑 令 人 印象 深刻 的 能 力 束 吸引 并 启 友 了 计 


算 机 科学 家 。 最 早 使 用 计算 机 模拟 人 脑 的 讨论 之 一 ， 是 由 英国 科学 家 阿兰 .图 灵 
(Alan Turing ) 发 起 的 ， 图 灵 还 是 一 名 顶级 的 数学 家 、 工 程 师 和 译 电 码 专家 。 
灵 于 1956 年 上 友 表 的 经 典 论文 《计算 机 器 与 智能 》 ( Computing Machinery and 
Intelligence ) ， 以 其 对 计算 机 是 否 能 伪 委 成 人 类 的 哲学 探讨 而 闻名 于 世 。 





一 个 标准 生物 神经 元 。 电 子 信号 按 图 中 箭头 所 示 方 向 流动 。 只 有 在 输入 信号 足够 大 的 情况 下 ， 神 经 元 才 会 传输 输 


这 篇 论文 介绍 了 一 种 评估 计算 机 和 人 之 间 相似 性 的 科学 方法 ， 也 束 是 如 今 众 所 
周知 的 “图 灵 测 试 ”( Turing ”Test ) 。 但 在 这 篇 论文 的 一 段 不 怎么 知名 的 文字 
里 ， 图 灵 和 直接 分 析 了 使 用 计算 机 模拟 人 脑 的 可 能 性 。 他 估计 只 需要 十 儿 G ( 干 兆 字 
蔬 ) 的 内 存 束 足 够 了 。 


66 年 后 ,人们 普遍 认为 图 灵 极 大 地 低估 了 模拟 人 脑 所 需 的 工作 量 。 自 那 篇 论文 
发 表 以 后 ， 计 算 机 科学 家 们 使 用 了 多 种 不 同 的 方法 寻求 达成 这 一 目标 。 其 中 一 个 结 
果 就 是 人 工 神经 网 络 领域 ( artificial neural networks ) ， 简 称 为 神经 网 络 。 


生物 和 神经 网 络 


为 帮助 我 们 理解 人 工 神 经 网 络 ， 我 们 首先 要 对 真实 的 生物 神经 网 络 如 何 运 行 有 
大 人 臻 了解。 动物 大 脑 由 神经 元 细胞 构成 ， 每 个 神经 元 和 其 他 许多 神经 元 相连 。 神 经 
元 能 通过 这 些 连 接 友 送 电 子 和 化 学 信号 。 其 中 一 些 连接 锌 建立 用 于 接收 来 自 其 他 神 
经 元 的 信号 ; 余下 的 连接 则 向 其 他 神经 元 传输 信号 ( 见 上 图 ) 。 


摘 述 这 些 信号 的 一 种 简单 方法 是 ， 在 任何 时 刻 ， 一 个 神经 元 要 么 “ 闲 

置 ”( idle )， 要么 “开火 ”( firing ) 。 当 它 闲置 时 ， 神 经 元 并 没有 传输 任何 信 
号 ; 当 它 开火 时 ， 神 经 元 通过 其 所 有 外 向 连接 频繁 友 送 信号 脉冲 。 神 经 元 如 何 决 定 

何 时 开火 呢 ? 这 取决 于 其 接收 到 的 信号 的 强度 。 基 本 上 “， 如 果 所 有 传 入 信号 的 总 强 

度 足够 大 ， 神 经 元 丈 会 开始 开火 ; 否则 ， 和 神经 元 仍 会 有 内置 。 粗 略 地 来 说 ， 神 经 元 会 

将 其 接收 的 所 有 输入 “ 相 加 ”在 总 和 足够 大 时 开火 。 这 一 摘 述 的 一 个 重要 修饰 之 

处 是 ， 神 经 元 实际 上 有 两 种 输入 ， 分 别 为 兴 和 理性 输入 (excitatory ) 和 抑制 性 输入 
( inhibitory ) 。 兴 奋 性 输入 的 强度 会 相 加 ， 而 抑制 性 输入 则 会 从 总数 中 减 去 ， 
此 一 个 强烈 的 抑制 性 输入 倾向 于 阻止 昼 经 元 开火 。 


一 个 解决 寓 们 问题 的 伸 经 网 络 


人 工 神 经 网 络 就 是 一 个 代表 一 小 部 分 人 脑 的 计算 机 模型 ， 运 算 高 度 简 化 。 我 们 
在 一 开始 会 讨论 一 个 人 工 神 经 网 络 的 基础 版 本 ， 这 个 基础 版 本 在 处 理 乙 前 思考 的 市 
伞 问 题 上 效果 良好 。 之 后 ， 我 们 将 运用 一 个 拥有 成 熟 功 能 的 神经 网 络 来 处 理 “ 太 阳 


镜 问 题 ”。 


我 们 基础 模型 中 的 每 个 神经 元 都 有 一 个 号 码 ， 这 个 号 码 航 称 为 神经 元 的 国 值 


( threshold ) 。 当 模型 运行 时 ， 每 个 神经 元 都 将 其 接收 的 输入 相 加 。 如 果 输 入 总 
量 大 于 或 等 于 国 值 ， 神 经 元 残 开火 ， 否 则 残 仍然 果 置 。 下 图 残 展 示 了 一 个 神经 网 
络 ， 处 理 我 们 之 前 思考 的 极其 简单 的 市 们 问题 。 在 图 的 左边 ， 有 三 个 输入 进入 网 
络 。 你 可 以 将 这 些 输入 想象 为 动物 脑 中 的 感 铝 输入 。 和 我 们 的 眼睛 及 耳 洒 触 友 并 友 
送 至 脑 部 神经 元 的 电子 及 化 学 信号 一 样 ， 图 中 三 个 输入 向 人 工 神 经 网 络 中 的 神经 元 

送信 号 。 这 个 网 络 中 的 三 个 输入 都 是 兴奋 性 输入 。 如 果 相 对 应 的 情况 是 真 的 ， 那 
么 每 个 输入 都 会 传输 强度 +1 的 信号 。 比 如 ， 如 果 现 在 多 云 ， 那 么 被 标记 为 “多 
云 ” 的 输入 ， 会 友 送 一 个 强度 +1 的 兴 和 理性 信号 ; 有 反之， 它 不 会 友 送 任何 东西 ， 也 束 
相当 于 一 个 强度 为 9 的 信号 。 


~ 


水 


如 果 我 们 忽略 输入 和 输出 ， 这 个 网 络 只 有 两 个 神经 元 ， 每 个 神经 元 的 国 值 都 不 
同 。 湿 润 度 和 云 量 输入 的 神经 元 ， 只 有 在 两 个 输入 都 活跃 时 才 开 火 〈 假设 其 国 值 为 
2 ) ， 而 另 一 个 神经 元 只 要 输入 之 一 是 活跃 的 束 能 开火 ( 假设 其 值 为 1 ) 。 这 样 做 的 
效果 在 下 图 中 展示 了 出 来 ， 你 能 在 其 中 看 到 最 终 输 出 是 如 何 根据 输入 改变 的 。 





潮湿 多 云 ， 但 未 下 雨 。 





多 云 ， 但 既 不 潮湿 也 没 下 雨 。 


最 上 方 的 图 : 一 个 解决 带 伞 问题 的 神经 网 络 。 下 面 两 张 图 : 运行 中 的 市 伞 神 经 网 络 。“ 开 火 ” 的 神经 元 、 输 入 和 
输出 都 加 粗 了 。 在 中 间 的 图 中 ， 输 入 状态 是 未 下 雨 ， 但 却 既 潮湿 又 多 云 ， 产 生 了 带 伞 的 决策 。 在 最 下 面 的 图 中 ， 
唯一 的 活跃 输入 是 : “多 云 ? ”结果 是 不 带 伞 的 决策 。 





将 由 一 个 神经 网 络 “ 识 别 ” 的 人 脸 。 事 实 上 ， 与 识别 人 脸 不 同 的 是 ， 我 们 将 处 理 比 识 别人 脸 更 简单 的 问题 ， 判 断 
一 张 人 脸 上 是 否 戴 了 太阳 镜 。 来 源 : 汤姆 : 米 切 尔 ( Tom Mitchell ) ，《 机 器 学 习 》 ( Machine Learning ) ， 
麦 格 劳 - 希 尔 出 版 社 ( 1998 年 ) 。 感 谢 授权 使 用 该 图 像 。 


到 这 里 ， 你 也 许 该 回头 再 看 看 前 文中 用 于 解决 市 们 问题 的 决策 树 。 结 果 显 示 ， 
当 给 予 相同 的 输入 时 ， 决 策 树 和 神经 网 络 产 生 了 相同 的 结果 。 对 于 这 个 非常 简单 的 


人 为 问题 而 言 ， 决策 树 作为 代表 很 可 能 要 更 合适 。 但 我 们 接 下 来 将 探究 一 个 很 复杂 
的 问题 ， 它 将 展示 神经 网 络 的 真正 力量 。 


一 个 解决 太阳 镜 问 题 的 神经 网 络 


作为 一 个 能 通过 使 用 神经 网 络 成 功 解决 的 现实 问题 的 例子 ， 我 们 将 处 理 被 称 
为 “太阳 和 镜 问 题 ” 的 任务 。 这 一 问题 的 输入 是 一 个 低 分 辨 率 人 脸 照片 的 数据 库 。 数 
据 库 中 的 人 脸 角度 不 一 : 有 些 人 直 视 镜头 ， 有 些 人 的 头 仰 着 ， 有些 人 看 向 左边 或 右 
边 ， 还 有 一 些 人 戴 着 太阳 镜 。 上 图 显示 了 其 中 一 些 例子 。 


在 这 里 ， 我 们 故意 使 用 低 分 辩 率 照片 ， 以 便 让 我 们 的 神经 网 络 容易 描述 。 事 实 
上 ， 这 些 图 片 的 宽 和 高 都 只 有 36 像 素 。 不 过 ， 我 们 很 快 束 会 知道 ， 神 经 网 络 在 如 此 
粗糙 的 输入 下 也 能 得 出 出 人 意料 的 好 结果 。 


这 个 人 脸 数据 库 可 以 通过 神经 网 络 来 执行 标准 面部 识别 一 一 即 判定 照片 中 人 的 
身份 ， 不 管 这 个 人 是 否 看 向 镜头 或 戴 太阳 镜 。 但 在 这 里 ， 我 们 要 处 理 一 个 更 容易 的 
问题 ， 以 更 清晰 地 展示 神经 网 络 的 属性 。 我 们 的 目标 是 判定 一 张 人 脸 是 否 戴 太阳 


镜 。 


输入 图 像 





一 个 解决 太阳 镜 问 题 的 神经 网 络 。 


上 图 显示 了 这 个 网 络 的 基本 结构 。 这 是 一 张 概括 图 ， 并 没有 显示 实际 网 络 中 使 
用 的 每 个 神经 元 或 每 个 连接 。 这 张 图 最 明显 的 特点 就 是 右边 的 那个 输出 神经 元 ， 如 
果 图 像 售 有 太阳 镜 ， 这 个 输出 神经 元 就 产生 一 个 1， 反 之 则 为 6。 在 网 络 中 央 ， 有 三 
个 直接 从 输入 图 像 接收 信号 并 向 输出 神经 元 发 送信 号 的 神经 元 。 这 个 网 络 最 复杂 的 
部 分 在 图 左边 ， 我 们 可 以 看 到 从 输入 图 像 到 中 央 神 经 元 的 连接 。 尽 管 并 没有 显示 所 
有 连接 ， 实 际 网 络 中 输入 图 像 的 每 个 像素 和 每 个 神经 元 都 有 连接 。 快 速 计算 后 ， 你 
会 上 帮 现 连接 数 相当 庞大 。 记 得 我 们 使 用 的 图 像 宽 高 都 为 36 像 素 吧 。 因 此 ， 即 便 以 现 
代 标 准 来 看 这 些 图 像 很 小 ， 但 每 张 图 片 也 都 包含 386 x 36 = 966 个 像素 。 而 图 中 有 
三 个 中 央 神 经 元 ， 也 融 是 这 ， 这 个 网 络 的 左边 总 共有 3 x 968 = 2 766 个 连接 。 


这 个 网 络 的 结构 是 如 何 决定 的 呢 ? 这 些 神 经 元 能 按照 不 同 的 方式 相连 吗 ? 是 
的 ,有 许多 种 不 同 的 网 络 结构 能 得 出 太阳 镜 问 题 的 好 结果 。 一 个 网 络 结构 的 选择 ， 
通 弟 是 基于 之 前 运行 民 好 的 经 验 。 和 以 前 一 样 ， 我 们 再 一 次 看 到 ， 和 图 形 识别 系统 
打交道 需要 洞 见 和 直觉。 


不 笠 的 是 ， 我 们 很 快 融会 看 到 ， 在 网 络 正确 运行 之 前 ， 我 们 选择 的 网 络 中 的 所 
有 2 7686 个 连接 ， 都 要 按 某 种 方式 “调整 ”。 我 们 如 何 才 有 可 能 处 理 这 种 调整 数 以 干 


计 不 同 连 接 的 复杂 度 ? 答案 是 调整 会 通过 学 习 训练 示例 目 动 完成 。 


增加 加 权 信 号 


正如 我 之 前 提 到 的 ， 我 们 用 于 解决 市 伞 问 题 的 网 络 是 一 个 基础 版 人 工 神 经 网 
络 。 对 于 太阳 镜 问 题 ， 我 们 将 添加 三 个 重要 的 增强 措施 。 


增强 措施 1 : 信号 只 能 携带 9 和 1 之 间 的 任意 值 。 这 和 带 伞 网 络 相反 ， 带 
伞 网 络 中 的 输入 和 输出 信号 被 限制 在 和 1， 不 能 携带 任何 中 间 值 。 换 言 之 ， 新 网 络 
中 的 信号 值 可 以 是 8.8823 或 6.755。 为 落实 到 具体 ， 想 想 太 阳 简 例子 。 输 入 图 像 中 
一 个 像素 的 亮度 对 应 通过 那个 像素 连接 输出 的 信号 值 。 因 此 ， 一 个 全 日 的 像素 会 友 
送 值 1， 而 一 个 全 黑 的 像素 会 太 送 值 8。。 不 同 灰 度 会 对 应 地 产生 8~1 的 值 。 


增强 措施 2 : 输入 总 和 通过 加 权 求 和 计算 。 在 带 伞 网 络 中 ， 神 经 元 在 没 
有 用 任何 方法 蔡 换 输入 的 情况 下 将 输入 相 加 。 不 过 ， 在 实际 中 ， 神 经 网 络 考虑 了 每 
个 连接 的 强度 不 同 。 连 接 的 强度 由 一 个 数字 代表 ， 这 个 数字 被 称 为 该 连接 的 权重 。 
大 的 正 权重 ( 如 51.2 ) 代表 了 强烈 的 兴奋 性 连接 一 一 当 信号 穿 过 这 样 的 连接 时 ， 其 
下 游 神经 元 极 有 可 能 会 开火 。 大 的 负 权 重 ( 如 -121.8 ) 代表 了 强烈 的 抑制 性 连接 

言 号 穿 过 这 样 的 连接 时 ， 其 下 游 神经 元 极 有 可 能 依然 闲置 。 权 重 较 小 ( 如 e .83 
或 -90.0674 ) 的 连接 对 其 下 游 神 经 元 是 否 开火 影响 很 小 。 ( 在 现实 中 ， 权 重 被 定义 
为 “大 ”或 “小 ”只 是 相对 其 他 权重 而 言 ， 因 此， 只 有 我 们 假设 这 些 数字 示例 在 同 
一 神经 元 的 连接 上 ， 这 里 给 出 的 数字 示例 才 有 意义 。 ) 当 一 个 神经 元 计算 其 输入 的 


总 和 时 ， 每 个 输入 信号 在 加 进 总 和 之 前 ， 都 会 和 其 连接 的 权重 相 乘 。 因 此 ， 大 权重 
的 影响 力 要 比 小 权重 的 大 ， 也 让 兴奋 性 和 抑制 性 信和 号 有 可 能 相互 抵消 。 


增强 措施 。 3 : 阅 值 的 作用 被 软化 。 立 值 不 再 将 神经 元 的 输出 限定 在 全 开 
( 比如 1 ) 或 全 天 ( 比如 8 ) 上 ; 输出 可 以 是 6 和 1 之 间 ( 包含 6 和 1 ) 的 任意 值 。 当 输 
入 总 和 远 低 于 辣 值 时 ， 输 出 会 接近 于 6， 当 输 入 总 和 远 高 于 阅 值 时 ， 输 出 接近 于 1。 
但 当 输 入 总 和 接近 辣 值 时 ， 会 产生 一 个 接近 08.5 的 中 间 输 出 。 比 如 ， 假 设 一 个 神经 元 
的 国 值 是 6. 2， 强度 为 122 的 输入 可 能 会 得 到 6 .995 的 输出 ， 这 是 因为 输入 远大 于 立 
值 。 但 强度 为 6.1 的 输入 接近 阅 值 ， 则 其 可 能 会 产生 一 个 6.45 的 输出 。 这 种 效果 在 
所 有 神经 元 上 都 有 ， 包 括 最 终 输 出 神经 元 。 在 我 们 的 太阳 镜 应 用 中 ， 这 意味 着 ， 输 
出 值 接近 1 强烈 暗示 了 存在 太阳 镜 ; 而 输出 值 接 近 8， 则 强烈 上 暗示 了 不 存储 太阳 镜 。 


信和 号 | 
3 U9 Ww 机 i 
尽 重 ]| 


信号 0.6x 权重 0.5 


权重 





信号 0.4x 





信和 号 在 相 加 前 会 乘 以 一 个 连接 权重 。 


上 图 展示 了 市 有 全 部 三 种 增强 措施 的 新 型 人 工 神经 元 。 这 个 神经 元 接收 来 自 三 
个 像素 的 输入 : 一 个 明亮 像素 ( 信号 强度 6.9 ) 、 一 个 中 等 明亮 的 像素 ( 信号 强度 
9.6 ) 和 一 个 颜色 较 深 的 像素 ( 信号 强度 6.4 ) 。 这 三 个 像素 跟 神 经 元 连接 的 权重 分 
别 是 16、8.5 和 -3。 这 举人 信号 先 和 权重 相 乘 再 相 加 ， 得 到 这 个 神经 元 的 输入 信号 总 


强度 为 8.1。 因 为 8 .1 要 远大 于 神经 元 的 国 值 2.5， 因 此 输出 非常 接近 于 1。 
通过 学 习 调整 一 个 神经 网 络 


现在 我 们 已 经 准备 好 去 说 明 ， 调 整 一 个 人 工 神经 网 络 究竟 意味 着 什么 。 首 先 ， 
每 个 连接 ( 记 住 ， 可 能 会 有 成 干 上 万 个 连接 ) 都 必须 有 权重 值 ， 这 个 值 可 以 为 正 
( 兴 香 性 ) ， 也 可 以 为 负 ( 抑制 性 ) 。 其 次 ， 每 个 神经 元 都 必须 有 个 合适 的 值 作为 
国 什 。 你 可 以 将 权重 和 国 值 想象 成 网 络 中 的 小 刻度 盘 ， 每 个 刻度 盘 都 能 像 电 灯 开 天 
中 的 调 光 器 一 样 调 上 调 下 。 


手动 调节 这 些 刻 度 盘 需要 耗费 的 时 间 会 令 人 望而却步 。 相 反 ， 我们 可 以 使 用 计 
算 机 在 学 习 阶 段 设置 这 些 刻 度 盘 。 最 开始 ， 这 些 刻度 盘 的 值 都 是 随机 值 。 ( 这 看 起 
来 也 许 非常 随意 ， 但 专业 人 士 在 实际 应 用 中 也 是 这 么 做 的 。 ) 之 后 ,计算机 会 获得 
第 一 个 训练 样本 。 在 这 个 例子 中 ， 第 一 个 训练 样本 是 一 个 可 能 戴 也 可 能 没 戴 大 阳 镜 
的 人 的 照片 。 这 个 样本 会 通过 这 个 网 络 处 理 ， 产生 一 个 在 6 和 1 之 间 的 输出 值 。 然 
而 ， 因 为 这 个 样本 是 训练 样本 ， 我 们 知道 网 络 理应 得 出 的 “目标 ” 值 。 关 键 点 在 于 
稍微 调整 一 下 网 络 ， 让 其 输出 更 接近 于 想 要 的 目标 值 。 比 如 ， 假 设 第 一 个 训练 样本 
恰巧 有 太阳 镜 。 那 么 目标 值 就 是 1。 因 此 ， 整 个 网 络 中 的 所 有 刻度 盘 都 要 稍微 调节 一 
下 ， 以 便 让 网 络 输出 值 朝 目标 值 1 的 方面 转移 。 如 果 第 一 个 训练 样本 不 包含 太阳 镜 ， 
每 个 刻度 盘 都 要 朝 相反 的 方向 移 去 一 点 点 ， 以 便 让 输出 值 向 目标 值 8 移 动 。 你 应 该 已 
经 知道 这 个 过 程 是 如 何 进 行 的 了 吧 。 网 络 一 个 接 一 个 地 获得 训练 样本 ， 每 个 刻度 盘 
都 要 被 调整 以 提升 网 络 效能 。 在 多 次 运行 完 所 有 训练 样本 后 ， 网 络 的 效能 基本 上 会 
达到 很 高 水 平 ， 而 学 习 阶 段 也 以 将 当时 的 刻度 盘 配 置 而 结束 。 


实际 上 ， 如 何 计算 刻度 盘 的 这 些 细微 调整 的 细节 相当 重要 ， 但 这 需要 一 些 超 出 


本 书 范围 的 数学 。 我 们 需要 的 工具 是 多 变量 微 积 分 ( multivariable 

calculus ) ， 这 一 般 是 在 大 学 中 等 数学 课程 中 教授 。 是 的 ， 数 学 的 确 重 要 ! 还 有 ， 
注意 我 在 这 里 描述 的 方法 ， 专 家 称 之 为 “随机 梯度 下 降 ” ( stochastic gradient 
descent ) ， 而 这 只 是 用 于 训练 神经 网 络 的 多 种 公认 方法 之 一 。 


所 有 这 些 方法 都 有 相同 的 特点 ， 让 我 们 专注 于 大 局 吧 : 神经 网 络 的 学 习 阶段 相 
当 耗 费 精 力 ， 涉 及 对 所 有 权重 和 阅 值 的 反复 调整 ， 直 到 网 络 在 训练 样本 上 运作 民 
好 。 不 过 ， 所 有 这 些 都 能 被 计算 机 自动 完成 ， 而 结果 就 是 一 个 能 简单 高 效 地 对 新 样 
本 分 类 的 网 络 。 


让 我 们 来 看 看 神经 网 络 如 何 解 决 太阳 镜 问 题 。 一 旦 学 习 阶 段 完 成 ， 从 输入 图 像 
到 中 央 昼 经 元 的 成 干 上 万 个 连接 ， 都 会 被 赋予 一 个 数字 权重 。 如 果 我 们 能 将 所 有 像 
素 的 连接 集中 到 一 个 神经 元 上 ( 比如 最 上 方 的 ) ， 我 们 束 能 通过 将 它们 转化 为 一 张 
图 片 ， 从 而 非常 方便 直观 地 看 到 这 些 权重 。 权 重 的 视 况 化 在 下 图 中 显示 ， 图 中 所 有 
像素 都 只 连接 到 一 个 中 央 钊 经 元 上 。 在 这 张 视 党 化 图 中 ， 强 烈 的 兴奋 性 连接 ( 比如 
大 的 正 权重 连接 ) 显示 为 日 色 ， 而 强烈 的 抑制 性 连接 ( 比如 大 的 负 权重 连接 ) 显示 
为 黑色 。 不 同 灰 度 的 颜色 代表 中 间 强 度 的 连接 。 每 个 权重 都 显示 在 与 其 相对 应 的 像 
素 点 上 。 仔 细 看 一 下 图 。 在 太阳 镜 通 常会 出 现 的 区 域 有 一 个 非常 明显 的 由 强烈 抑制 
性 权重 组 成 的 地 市 一 一 事实 上 ， 你 几乎 可 以 肯定 这 张 权重 图 真 的 包含 某 副 太阳 镜 的 
图 像 。 我 们 可 以 称 之 为 太阳 镜 的 “幻影 ”， 因 为 它们 并 不 代表 任何 现实 中 存在 的 特 
定 太 阳 镜 。 





太阳 镜 网 络 中 连 向 一 个 中 央 神 经 元 的 输入 权重 ( 比如 强度 ) 。 


考虑 到 设置 权重 并 未 使 用 任何 人 类 知识 告知 太阳 镜 的 一 般 颜色 和 位 置 ， 这 个 纪 
影 的 出 现 给 人 的 印象 相当 深刻 ， 人 类 提供 的 信息 只 有 一 系列 训练 图 像 ， 每 个 图 像 都 
有 个 简单 的 “是 ”或 “ 否 ” 表 明 其 中 是 否 有 太阳 镜 。 太 阳 镜 的 幻影 从 学 习 阶 段 反 复 
调整 的 权重 中 自动 浮现 出 来 。 


另外 ， 图片 的 其 他 部 分 也 有 许多 明显 的 强权 重 ， 从 理论 上 讲 ， 这 些 权重 不 应 该 
对 太阳 镜 决 策 有 影响 。 我 们 怎么 才能 解释 这 些 没有 意义 、 明 显 是 随机 的 连接 呢 ? 在 
这 里 ， 我 们 遇 到 了 人 工 智 能 研究 人 员 在 过 去 几 十 年 中 学 到 的 最 重要 的 教训 之 一 : 看 
似 智 能 的 行为 有 可 能 从 看 似 随 机 的 系统 中 浮现 出 来 。 如 果 我 们 有 能 力 进 入 人 脑 ， 研 
究 神 经 元 之 间 连 接 的 强度 ， 其 中 绝 大 部 分 连接 都 会 表现 得 很 随机 。 然 而 ， 当 作为 集 
合体 行动 时 ， 这 些 连 接 强度 的 松散 集合 产生 了 人 的 智能 行为 ! 





太阳 镜 网 络 的 结果 。 
资料 来 源 : 汤姆 : 米 切 尔 ( Tom Mitchell ) ，《 机 器 学 习 》 ( Machine Learning ) ， 麦 格 劳 - 希 尔 出 版 社 
( 1998 年 ) 。 感 谢 授权 使 用 该 图 像 。 


运用 太阳 镜 网 络 


既然 我 们 现在 使 用 着 一 个 能 输出 6 到 1 之 间 任 意 值 的 网 络 ， 你 也 许 在 想 我 们 该 号 
么 才能 得 到 最 终 答 案 一 图片 中 的 人 有 没有 戴 太 阳 镜 ? 正确 的 技巧 极其 简单 : 超过 
6.5 的 输出 被 视 为 “有 太阳 镜 ”， 低 于 6.5 的 输出 结果 被 视 为 “没有 太阳 镜 ”。 


要 测试 我 们 的 太阳 镜 网 络 ， 我 进行 了 一 次 实验 。 面 部 数据 库 包 含 约 666 张 图 片 ， 
我 将 468 张 图 片 用 于 网 络 学 习 ， 然 后 用 剩余 的 266 张 图 片 测试 了 网 络 的 效果 。 在 这 个 
实验 中 ， 太 阳 镜 网 络 的 最 终 精 确 度 在 85% 左 右 。 换 言 之 ， 在 太阳 镜 网 络 从 未 见 过 的 图 
片 中 ， 当 询问 约 85% 的 图 片 “ 里 面 的 人 戴 太阳 镜 了 吗 ” 这 个 问题 时 ， 太 阳 镜 网 络 都 能 
给 出 正确 答案 。 上 图 显示 了 一 些 分 类 正确 及 分 类 不 正确 的 图 片 。 检 验 一 个 图 形 识别 
算法 在 哪些 情况 下 会 失效 轧 是 很 吸引 人 ， 这 个 神经 网 络 也 不 例外 。 上 图 右 侧 没有 被 
正确 分 类 的 图 片 中 有 一 两 张 非常 难 识别 ， 甚 至 连 人 都 可 能 分 辨 不 出 。 不 过 ， 至 少 有 
一 张 图 片 ( 右 侧 图 中 的 左上 方 图 ) 对 人 来 说 非常 好 辨认 一 一 这 个 男人 直 视 镜头 ， 很 
明显 也 戴 了 太阳 镜 。 这 类 时 不 时 出 现 的 神秘 失败 案例 在 图 形 识 别 任务 中 很 单 见 。 


当然 ， 顶 尖 神 经 网 络 在 这 个 问题 上 的 精确 度 能 远 高 于 85%。 这 里 的 重点 是 使 用 一 
个 简单 网 络 ， 理 解 涉及 的 主要 思想 。 


图 形 识别 : 过 去 、 现 在 和 未 来 


我 之 前 提 到 过 ， 图 形 识别 是 更 大 的 领域 人 工 智能 ( AI ) 的 一 个 方面 。 图 形 识 别 
处 理 高 度 变化 的 输入 数据 ， 如 音频 、 照 片 和 视频 ; AI 处 理 的 任务 更 多 元 ， 包 括 计算 
机 国际 象棋 、 在 线 聊天 机 器 人 和 人 形 机 器 人 。 


人 工 智 能 是 突然 从 无 到 有 兴盛 起 来 的 : 在 1956 年 于 达 特 茅 斯 大 学 举行 的 一 次 会 
议 上 ， 一 个 由 16 名 科学 家 组 成 的 小 组 从 根本 上 创立 了 这 一 领域 ， 让 “人 工 智能 ”这 


个 短语 第 一 次 流行 开 来 。 在 这 次 大 会 创建 提案 一 大 会 组 织 者 将 其 友 给 了 洛克 非 勒 
基金 会 一 一 的 聚 迈 文字 中 ， 他 们 的 讨论 “将 在 一 个 推测 的 基础 上 进行 ， 这 个 推测 是 
学 习 的 每 个 方面 或 智能 的 任何 其 他 特性 都 能 从 根本 上 加 以 精确 质 述 ， 进 而 创造 一 台 
能 模拟 它 的 机 器 。 


达 特 茅 斯 大 会 给 出 了 很 多 承诺 ， 但 总 现 甚 少 。 而 每 当 研 究 人 员 确 信 迈 向 真 

正 “ 智 能 ”机 器 的 天 键 突破 残 在 眼前 时 ， 他 们 的 安 大 希 望 总 是 会 被 原型 机 产生 的 机 
械 行为 所 打 碎 。 即 便 神 经 网 络 的 发 展 对 此 帮助 也 很 小 : 在 数 波 有 前 景 的 活动 之 后 ， 
科学 家 们 也 用 尽 了 对 付 这 堵 机 械 行为 之 墙 的 方法 。 


不 过 ， 人 工 智 能 肯定 在 慢 慢 地 破解 那些 思想 进程 集合 ， 这些 思 想 进 程 可 能 被 定 
义 为 只 有 人 类 独 有 。 数 年 来 ， 许 多 人 相信 人 类 国际 象棋 冠军 的 直 营 和 洞 见 能 打败 任 
何 计算 机 程序 。 计 算 机 程序 必须 依赖 于 预 设 好 的 规则 集 ， 而 非 直 党 。 这 种 看 法 对 人 
工 智能 而 言 本 身 已 挥 摇 欲 坠 ， 并 在 1997 年 被 彻底 去 除 ，IBM 的 深蓝 计算 机 在 这 一 年 
打败 了 世界 冠军 蘑 瑞 卡 斯 由 罗 夫 ( Garry Kasparov ) 。 


同时 ， 人工 智能 的 成 功 故 事 也 慢 慢 渗透 到 普通 人 的 生活 中 去 。 通 过 语音 识别 来 
服务 消费 者 的 自动 电话 系统 已 经 很 常 为 。 视 频 游戏 中 计算 机 控制 的 对 手 开始 表现 出 
类 似 于 人 的 战略 ， 甚 全 还 有 个 性 特点 和 弱点 。 亚 马 进 和 Netf1ix 等 在 线 服务 开始 基 
于 自动 推导 的 个 人 剖 好 推荐 商品 ， 而 结果 经 单 令 人 极其 满意 。 


的 确 ， 我 们 对 这 些 任务 的 认 知 已 经 从 根本 上 被 人工 智能 的 友 展 改变 了 。 想 想 这 
个 问题 ， 在 1996 年 肯定 需要 人 类 的 智能 输入 来 规划 一 次 多 地 停留 的 飞机 旅行 路 线 ， 
而 且 人 类 还 会 因为 自己 的 专业 技能 获得 报酬 。1996 年 ， 好 的 人 类 旅行 中 介 在 寻找 方 
便 、 低 成 本 的 路 线 上 会 产生 巨大 不 同 。 不 过 ， 到 2616 年 ， 计 算 机 在 执行 这 项 任务 上 
束 比 人 类 好 上 很 多 了 。 计 算 机 究竟 如 何 达 到 这 一 点 本 身 就 是 个 有 趣 的 故事 ， 因 为 它 


们 在 规划 路 线 时 的 确 用 到 了 数 个 迷人 算法 。 但 更 重要 的 是 这 些 系统 对 我 们 在 这 项 任 
务 的 认 知 上 的 影响 。 我 会 说 ， 到 2816 年 ， 大 多 数 人 都 会 认为 规划 路 续 的 任务 是 纯粹 
机 械 化 的 行为 一 一 和 26 年 前 的 认 知 形成 鲜明 对 比 。 


任务 的 逐渐 转变 一 一 从 明显 是 直 沈 性 的 任务 到 显然 是 机 械 化 的 任务 一 一 还 在 继 
续 。 普 遍 意义 上 以 及 图 形 识别 中 特殊 意义 上 的 人 工 智 能 正 慢 慢 扩展 它们 的 边界 ， 提 
升 它 们 的 效能 。 本 章 摘 述 的 算法 一 一 最 近邻 分 类 器 、 决 策 树 和 神经 网 络 一 一 能 航运 
用 于 无 数 实际 问题 中 。 这 包括 纠正 手机 虚拟 键盘 上 胖 手 指 ( fat-fingered ) 文本 输 
入 ， 从 一 份 复杂 的 检验 结果 中 帮助 诊断 病人 疾病 ， 在 目 动 收费 之 识别 汽车 牌照 ， 以 
及 决定 向 某 个 计算 机 用 尸 展 示 什么 广告 一 一 这 里 只 列举 几 个 。 因 此 ， 这 些 算法 是 图 
形 识别 系统 的 一 些 基础 构件 。 不 管 你 是 否认 为 它们 是 真正 的 “智能 ”， 你 都 将 在 未 
来 数 年 中 看 到 更 多 这 些 算法 。 








爱 玛 很 快活 。 如 果 不 是 从 卧室 里 传 来 埃 尔 顿 太太 的 声音 ， 从 而 妨碍 了 她 ， 使 她 急匆匆 地 真诚 地 紧 紧 握 住 她 的 手 以 
表达 最 诚挚 的 祝愿 和 深厚 的 感情 ， 她 真 想 立 刻 就 表示 有 话 要 讲 。 


简 - 奥 斯 汀 ，《 爱 玛 》 蕊 1] 





[2 译文 选 自 张 宇 译本 。 一 一 译 者 注 


我 们 对 压缩 实物 的 概念 都 很 熟悉 : 当 你 试图 将 许多 衣服 放 入 一 个 小 提 箱 中 时 ， 
你 可 以 压 一 压 衣服 ， 让 它们 小 到 能 被 小 提 箱 容纳 ， 即 便衣 服 的 正常 体积 会 超出 小 提 
箱 。 你 压缩 了 衣服 。 之 后 ， 骨 从 小 提 箱 中 拿 出 衣服 时 ， 你 束 能 解压 它们 ， 并 以 它们 
的 原始 大 小 和 形状 再 度 穿着 ( 希望 能 如 此 ) 。 


令 人 惊讶 的 是 ， 我 们 也 有 可 能 对 信息 做 同样 的 事 : 计算 机 文件 和 其 他 种 类 的 数 


据 ， 通常 能 被 压缩 成 更 小 的 体积 ， 以 万 便 存 储 或 传输 。 然 后 ， 它 们 会 被 解压 并 以 原 
始 形 式 被 使 用 。 


绝 大 多 数 人 的 计算 机 上 有 足够 的 磁盘 空间 ， 无 须 为 压缩 目 己 的 文件 烦心 。 
此 ， 人 们 倾向 于 认为 ， 压 缩 对 绝 大 多 数 人 没有 影响 。 但 这 种 印象 是 错误 的 : 事实 
上 ， 计 算 机 系统 背后 经 单 用 到 压缩 。 比 如 ， 许 多 通过 互联 网 友和 送 的 消息 都 经 过 了 压 
缩 ， 用 户 甚 至 不 知道 这 一 点 ; 几乎 所 有 软件 都 是 以 压缩 格式 被 下 载 一 一 这 意味 着 你 
下 载 和 转移 文件 的 速度 ， 要 比 不 压缩 时 快 数 倍 。 甚 至 当 你 对 着 电话 讲话 时 ， 你 的 声 
音 也 经 过 了 压缩 : 如 果 电 话 公司 能 在 传输 语音 数据 前 进行 压缩 ， 它 们 殊 能 对 目 己 的 
资源 实现 超 高 利用 率 。 


压缩 也 以 更 明显 的 方式 得 到 了 运用 。 流 行 的 ZIP 文 件 格式 运用 的 精巧 压缩 算法 ， 
将 在 本 章 得 到 介绍 。 你 很 有 可 能 也 对 涉及 压缩 数字 视频 的 得 失 很 熟悉 : 高 质量 视频 
的 文件 体积 ， 要 比 相同 视频 的 低 质 量 版 本 大 很 多 。 


无 损 压 缩 : 终极 免费 午餐 


计算 机 使 用 两 种 截然 不 同 的 压缩 : 无 损 压 缩 和 有 损 压缩 ， 这 点 很 重要 。 无 损 压 
缩 是 真正 的 免费 午餐 ， 对 你 有 益 无 害 。 一 种 无 损 压 缩 算法 能 将 一 个 数据 文件 压缩 为 


其 原始 体积 的 一 小 部 分 ， 然 后 将 其 解压 为 和 之 前 一 样 的 东西 。 相 反 ， 有 损 压 缩 会 导 
致 解压 后 的 原始 文件 发 生 一 些小 改变 。 我 们 稍 后 再 讨论 有 损 压缩 ， 现 在 让 我 们 专注 
于 无 损 压 缩 吧 。 举 个 无 损 压 缩 的 例子 ， 假 设 原始 文件 包含 本 书 文本 。 那 么 你 在 压缩 
前 和 压缩 后 得 到 的 文件 版 本 包含 完全 相同 的 文本 一 一 不 会 有 一 个 字 、 空 格 或 标点 符 
号 不 同 。 在 我 们 为 免费 午餐 感到 欣喜 若 狂 之 前 ， 我 要 加 一 个 重要 警告 : 无 损 压 缩 算 
法 并 不 能 为 所 有 文件 都 节省 大 量 空间 。 但 一 个 好 的 压缩 算法 能 为 特定 大 类 的 文件 节 
省 大 量 空间 。 





那 我 们 怎么 才能 享受 免费 午餐 呢 ? 你 怎么 才能 在 不 破坏 的 情况 下 ， 让 一 块 数据 
或 信息 比 起 实际 “真实 ”体积 更 小 ， 并 企 之 后 完美 地 重 构 一 切 东西 呢 ?事实 上 ， 人 
类 一 直 都 在 这 么 做 ， 只 不 过 从 未 想到 过 去 了 。 想 一 下 你 的 每 周 日 程 。 为 简单 起 见 ， 
让 我 们 假设 你 每 天 工作 8 小 时 ， 每 周 工作 5 天 ， 你 用 一 小 时 的 区 间 来 划分 日 程 。 
此 ，5 个 工作 日 的 每 天 都 有 8 个 可 能 的 区 间 ， 每 周一 共有 46 个 区 | 间 。 然 后 ， 将 你 一 周 
的 日 程 传输 给 其 他 人 ， 你 必须 传输 46 份 信息 。 但 如 果 有 人 打 电 话 让 你 安排 下 周 的 一 
个 会 议 ， 你 会 通过 列 出 486 份 分 开 的 信息 来 搞 述 目 己 什么 时 候 有 空 吗 ” 当然 不 会 ! 最 
有 可 能 的 情况 是 ， 你 会 说 些 “ 周 一 和 周二 全 满 ， 周 四 和 周 五 下 午 1 点 到 3 点 有 预约 ， 
其 余 时 间 有 空 ”之 类 的 话 。 这 就 是 一 个 无 损 数据 压缩 的 例子 ! 和 你 谈话 的 人 能 完 
重 构 出 你 下 周 所 有 46 个 时 段 的 空 闪 情况， 但 你 却 无 须 详细 列 出 它们 。 


你 也 许 会 想 这 种 “压缩 ”是 取 巧 ， 因 为 它 取决 于 这 一 事实 : 你 的 日 程 安排 中 的 
绝 大 多 数 区 块 都 相同 。 特 别 是 ， 周 一 和 周二 全 天 都 有 预约 ， 因 此 你 能 非常 快速 地 摘 
述 它 们 ， 这 周 剩 下 的 时 间 里 ， 除 了 两 个 时 间 段 以 外 都 有 空 ， 这 也 很 容易 摘 述 。 这 的 
确 是 个 非 单 简单 的 例子 。 不 管 号 样 ， 计 算 机 中 的 数据 压缩 也 是 按照 这 一 方法 运行 
的 : 基本 思想 是 发 现 数据 中 彼此 相同 的 部 分 ， 并 运用 某 种 把 戏 更 高 效 地 描述 这 些 部 


全 


这 在 数据 包含 重复 片段 时 尤其 简单 。 比 如 ， 你 很 有 可 能 想 出 一 个 压缩 下 列 数据 
的 好 方法 : 


AAAAAAAAAAAAAAAAAAAAABCBCBCBCBCBCBCBCBCBCAAAAAADEFDEFDEF 


如 果 乍 一 看 还 不 明显 ， 思 考 一 下 你 会 如 何 通 过 电话 向 某 人 口述 这 份 数据 。 和 
说 “A、A、A、A、.…..、D、E、F” 不 同 的 是 ， 我 衣 定 你 更 有 可 能 会 说 “21 个 A， 然 
后 是 16 个 BC， 接着 是 6 个 A， 最 后 是 3 个 DEF” 。 再 比如 ， 要 很 快 地 在 一 张 纸 上 记 下 这 
份 数据 ， 你 可 能 会 写 “21A、16BC、6A、3DEF”。 在 这 个 例子 里 ， 你 将 这 个 包含 56 
个 字母 的 原始 数据 压缩 成 了 只 有 16 个 字母 的 字符 串 。 这 不 到 原 体 积 的 三 分 之 一 一 一 
不 错 ! 计算 机 科学 家 将 这 种 特别 的 把 戏称 为 行程 长 度 编码 ( run-length 
encoding ) ， 因 为 它 将 重复 的 “行程 ”和 行程 的 “长 度 ”编码 在 了 一 起 。 


不 幸 的 是 ， 行 程 长 度 编 码 只 在 压缩 非常 特殊 的 数据 种 类 上 有 用 。 它 在 实际 中 也 
有 运用 ， 但 大 部 分 时 候 只 和 其 他 压缩 算法 结合 起 来 使 用 。 比 如 ， 传 真 机 就 将 行程 长 
度 编码 和 另 一 种 航 称 为 专 夫 曼 编 码 ( Huffman coding ) 的 技术 结合 起 来 使 用 ,我们 
稍 后 将 谈 到 零 夫 曼 编 码 。 行 程 长 度 编码 的 主要 问题 是 ， 数 据 中 的 重复 片段 必须 相 邻 
一 一 换 句 话说 ， 重 复 部 分 间 不 能 有 其 他 数据 。 使 用 行程 长 度 编 码 压 缩 ABABAB 很 容易 
( 只 是 3AB ) ， 但 用 相同 的 把 戏 压缩 ABXABYAB 融 行 不 通 了 。 


你 也 许 明日 为 什么 传真 机 能 利用 行程 长 度 编码 。 从 定义 上 来 说 ， 传 真是 黑 日 文 
件 ， 文 件 会 被 转换 成 许多 个 点 ， 每 个 点 都 是 非 黑 即日 。 当 你 按 顺 序 阅读 这 些 点 ( 从 
左 到 右 ， 从 上 到 下 ) ， 你 会 遇 到 大 段 日 点 ( 背景 ) 以 及 小 段 黑 点 ( 前 景 文本 或 笔 
迹 ) 。 这 让 使 用 行程 长 度 编码 变 得 非常 有 效 。 但 正如 之 前 所 提 到 的 ， 只 有 特定 类 型 
的 数据 具有 这 一 特点 。 


于 是 ， 计 算 机 科学 家 们 发 明了 一 系列 更 成 熟 的 把 戏 ， 这些 把 戏 使 用 的 基本 思想 
都 相同 ( 寻找 重复 并 高 效 地 摘 述 它们 ) ， 但 即便 重复 部 分 不 相 邻 也 效果 良好 。 在 这 
里 ， 我 们 只 会 研究 其 中 的 两 种 把 戏 : 同 前 把 戏 ( same-as-earlier trick ) 和 更 短 
符号 把 戏 ( shorter-symbol trick ) 。 你 只 需要 这 两 个 把 戏 融 能 生成 ZIP 文 件 ， 而 
ZIP 文 件 格式 是 个 人 电脑 上 压缩 文件 最 流行 的 格式 。 因 此 ， 一 旦 你 理解 了 这 两 个 把 戏 


背后 的 基本 思想 ， 你 也 就 理解 了 计算 机 在 大 部 分 时 间 里 是 如 何 运 用 压缩 的 。 
同 前 把 戏 


想象 这 束 是 你 要 处 理 的 可 怕 任 务 ， 通 过 电话 向 某 人 口述 如 下 数据 : 


VJGDNQMYLH-KN-VJGDNQMYLH-ADXSGF-OVJGDNQMYLH-ADXSGF-VJGDNQMYLH-EW - 


ADXSGF 


这 里 有 63 个 字母 需要 沟通 ( 顺便 说 一 句 ， 我们 忽略 了 破 折 号 ， 加 入 它们 只 是 为 
了 让 数据 更 容易 阅读 ) 。 和 每 次 一 个 字母 地 口述 全 部 63 个 字母 相 比 ， 我 们 有 更 好 的 
办 法 吗 ? 第 一 步 也 许 是 去 识别 数据 中 大 量 的 重复 部 分 。 事 实 上 ， 大 多 数 被 破 折 号 分 
开 的 “ 块 ” 都 至 少 重复 了 一 次 。 因 此 ， 在 口述 这 份 数据 时 ， 你 可 以 通过 “这 部 分 和 
我 之 前 告诉 你 的 某 个 部 分 一 样 ” 节 省 大 量力 气 。 更 精确 点 讲 ， 你 要 讲 是 多 久 前 说 
的 ， 还 要 讲 重复 的 部 分 有 多 长 一 一 也 许 是 “ 往 回 数 27 个 字母 ， 然 后 复制 从 那 一 点 开 
始 往 下 的 8 个 字母 ”。 

让 我 们 来 看 看 这 一 策略 在 现实 中 效果 如 何 。 最 开始 的 12 个 字母 没有 重复 部 分 ， 
你 没有 其 他 选择 ， 只 能 按 字母 逐个 口述 : “V、J、G、D、N、Q、M、Y、L、H、K、 
W”。 但 接 下 来 的 16 个 字母 和 之 前 的 一 些 字母 相同 ， 因 此 你 可 以 说 “back 12 ，copy 


16” ( 数 回 12 个 字母 ， 抄 到 第 16 个 字母 ) 。 再 下 面 7 个 字母 是 新 出 现 的 ， 按 字母 逐 

个 口述 : “A、D、X、Ss、G、F、0”。 但 之 后 的 16 个 字母 是 个 大 的 重复 部 分 ， 因 此 

你 可 以 说 “back 17，copy 16” ( 数 回 17 个 字母 ， 抄 到 第 16 个 字母 ) 。 接 下 来 的 

16 个 字母 也 是 之 前 的 重复 部 分 ， 因 此 “back 16 ， copy 16” ( 数 回 16 个 字母 ， 

抄 到 第 16 个 字母 ) 融 可 以 了 。 再 接 下 来 的 两 个 字母 没有 重复 ， 需 要 逐个 口述 为 “E、 

NW”。 最 后 的 6 个 字母 是 之 前 的 重复 ， 可 以 通过 “back 18，copy 6” ( 数 回 18 个 字 
, 抄 到 第 6 个 字母 ) 沟通 


让 我 们 尝试 轧 结 一 下 这 个 压缩 算法 。 我 们 用 缩写 b 代 蔡 “back”，c 代 
蔡 “copy”。 因 此 一 个 如 “back 18，, copy “6” ( 数 回 18 个 字母 ， 抄 到 第 6 个 字 
母 ) 的 返回 抄写 指令 简写 为 b18c6。 因 此 上 面 的 口述 指令 可 以 被 总 结 成 : 


VJGDNQMYLH-KW-b12c106-ADXSGF-0-b17c16-b16c16-EW-b18c6 


这 个 字符 捉 只 包含 44 个 字母 。 原 始 字 符 串 有 63 个 字母 ， 我 们 节省 了 19 个 字母 ， 
接近 原始 字符 串 长 度 的 1/3。 


同 前 把 戏 中 还 有 一 个 有 趣 的 窍门 。 你 会 如 何 使 用 相同 的 把 戏 压缩 FG-FG-FG-FG- 
FG-FG-FG-FG 这 条 消息 ”( 和 之 前 一 样 ， 破 折 号 不 是 消息 的 一 部 分 ， 只 是 为 增强 可 
读 性 而 添加 。 ) 消息 中 的 FG 有 8 处 重复 ， 因 此 我 们 可 以 单个 口述 前 4 个 ， 然 后 使 用 如 
下 的 返回 抄写 指令 : FG-FG-FG-FG-b8c8。 这 会 节省 不 少 字 母 ， 但 我 们 可 以 做 得 
好 。 这 需要 一 个 第 一 眼看 起 来 可 能 显得 荒 廖 的 返回 抄写 指令 : “back 2， copy 
14” ( 数 回 2 个 字母 ， 抄 到 第 14 个 字母 ) ， 或 简写 为 bz2c14。 压 缩 的 消息 融 成 了 FG- 
b2c14。 在 只 有 2 个 字母 可 供 抄写 的 情况 下 ， 怎 么 理解 抄 到 第 14 个 字母 呢 ? 事实 上 ， 
只 要 你 从 重新 生成 的 消息 中 而 非 压缩 的 消息 中 抄写 ， 就 不 会 有 任何 问题 。 让 我 们 一 

步 地 来 做 。 在 口述 了 最 开始 的 2 个 字母 后 ， 我 们 有 了 FG。 然 后 我 们 收 到 b2c14 指 


令 ， 于 是 我 们 数 回 2 个 字母 并 开始 抄写 。 因 为 只 有 2 个 字母 ( FG ) ， 让 我 们 抄写 这 2 个 
字母 : 当 把 抄写 的 字母 加 到 我 们 已 有 的 字母 后 ， 结 果 是 FG-FG。 但 现在 多 了 2 个 字 

! 照样 抄写 这 些 字母 ， 在 将 它们 添加 到 已 有 的 重新 生成 的 消息 上 之 后 ， 你 得 到 了 
FG-FG-FG。 和 前 一 次 一 样 ， 又 多 出 2 个 字母 ， 于 是 你 又 能 多 抄写 2 个 字母 。 依 此 类 
推 ， 直到 你 抄写 了 所 要 求 的 字母 数 ( 在 这 个 例子 中 就 是 14 个 ) 。 要 检验 自己 是 否 理 


解 了 这 一 点 ， 看 看 你 能 否 得 到 这 条 压缩 消息 的 解压 版 : Abp1c256。 
更 短 符 号 把 戏 


要 理解 名 为 “更 短 符号 把 戏 ” 的 压缩 把 戏 ， 我 们 要 更 深入 探究 计算 机 存储 消息 
的 万 式 。 你 之 前 可 能 听 说 过 ， 计 算 机 并 不 真 的 存储 a、b、c 这 样 的 字母 。 所 有 东西 都 
以 数字 存储 ， 然 后 根据 一 些 固 定 表格 翻译 为 字母 。 ( 这 种 在 字母 和 数字 之 间 转 换 的 
技术 在 校 验 和 的 讨论 中 有 提 到 。 ) 比如 ， 我 们 可 以 同意 “a” 由 27 代 表 ，“b” 由 28 
代表 ，“c” 由 29 人 代表。 那么 字符 串 “abc” 就 可 以 以 “272829” 的 形式 存储 在 计算 
机 中 ， 而 在 屏幕 上 显示 或 打印 在 纸 上 之 前 ， 这 些 数字 又 能 轻易 翻译 回 “abc”。 


下 面 的 表格 给 出 了 一 个 完整 列表 ， 列 出 了 计算 机 也 许 想 存储 的 166 个 符号 以 及 每 
个 符号 对 应 的 两 位 数 代 码 。 顺 便 说 一 下 ， 这 个 特别 的 两 位 数 代 码 集 并 没有 在 任何 现 
实 计算 机 系统 使 用 ， 但 与 现实 生活 中 使 用 的 代码 相当 相似 。 两 者 的 主要 区 别 是 ， 计 
算 机 并 不 使 用 人 类 使 用 的 十 进 制 数 系统 。 相 反 ， 也 许 你 知道 ， 计 算 机 使 用 一 个 不 同 
的 数位 系统 ， 这 个 系统 被 称 为 二 进 制 系 统 。 不 过 ， 这 些 细节 对 我 们 来 说 并 不 重要 。 
更 短 符号 压缩 把 戏 同时 对 十 进 制 和 二 进 制 数 系统 奏效 ， 因 此 我 们 假 浴 计 算 机 使 用 十 
进 制 ， 以 使 接 下 来 的 解释 更 容易 。 


仔细 看 看 这 张 符号 表 。 注 意 表 的 第 一 项 给 出 了 字 与 字 之 间 空 格 的 数字 代 


码 “609”。 接 下 来 是 从 A ( “61” ) 到 z ( “26” ) 的 大 写字 母 ， 以 及 从 
a ( “27” ) 到 z ( “52” ) 的 小 写字 母 。 再 接 下 来 是 标点 符号 ， 最 后 一 栏 中 收录 了 
一 些 书 写 非 英语 单词 用 到 的 字符 ， 从 a( “86”) 到 u ( “99” ) 。 


那么 计算 机 该 如 何 使 用 这 些 两 位 数 代码 存储 “heet your fiancé 
there” ( 去 那 见 你 的 未 婚 夫 ) 这 句 话 呢 ? 很 简单 : 只 要 将 每 个 字符 翻译 成 对 应 的 数 
字 代码 并 申 联 在 一 起 


Meet your fiance there. 


13 31 31 46 66 51 41 47 44 606 32 35 27 46 29 82 60 46 34 31 44 31 


66 


在 计算 机 中 ， 数 字 对 之 间 是 没有 间隔 的 ， 认 识 到 这 一 点 很 重要 。 因 此 ， 这 条 消 
息 实际 上 被 存储 为 一 个 46 位 数 的 持续 字符 
串 : “1331314666514147446632352746298266463431443166”。 当 然 ， 人 类 解 
读 这 个 字符 串 有 点 难 ， 但 对 计算 机 来 说 却 轻而易举 。 在 将 数字 翻译 成 字符 显示 在 屏 
幕 上 之 前 ， 计 算 机 能 轻易 将 数字 分 成 对 。 关 键 是 在 如 何 分 开 数 字 代 码 上 没有 歧义 ， 
因为 每 个 代码 都 只 是 用 两 个 数字 。 事 实 上 ， 这 也 是 A 用 “81” 而 不 是 “1” 代 表 的 原 
因 。 同 理 , B 是 “62” 而 不 是 “2”， 一 直到 字母 1 ( “69” 而 不 是 “9” ) 。 如 果 我 
们 选择 让 A= “1”“，B= “2”， 依 此 类 推 ， 根 本 就 不 可 能 清楚 地 翻译 消息 。 比 如 ， 消 
息 “1123” 可 以 拆 成 “1 1 23” (翻译 为 AAW ) ,或 “11 2 3”(KBC) 或 “1 1 
2 3”( AABC ) 。 因 此 ， 请 记 住 这 一 重要 思想 : 数字 码 和 字符 之 间 的 翻译 必须 清楚 
无 异议 ， 即 便 代码 在 没有 空格 的 情况 下 彼此 相 邻 地 存储 。 我 们 马上 融 要 为 这 个 问题 
感到 头痛 ! 


回 到 更 短 符号 把 戏 。 和 本 书 中 摘 述 的 许多 本 该 是 技术 性 的 思想 一 样 ， 人 类 也 一 
直 在 运用 更 短 符号 把 戏 ， 用 时 甚至 想 都 没 想 过 。 更 短 符号 把 戏 的 基本 思想 是 ， 如 果 
你 使 用 某 样 东 西 足够 多 次 ， 给 它 起 个 简短 缩写 是 很 值得 的 。 所 有 人 都 知 
道 “UsA” 是 “United States of America” (美利坚 合众国 ) 的 缩写 一 一 我 们 
所 有 人 每 次 在 输入 或 说 出 这 个 由 3 个 字母 组 成 的 代码 “USA” 而 非 其 代表 的 由 24 个 
字母 组 成 的 完整 短语 时 都 节省 了 很 多 力气 。 你 知道 “The sky is blue in 
color”( 天 空 很 监 ) 的 缩写 吗 ? 这 个 短 句 恰好 也 由 24 个 字母 组 成 。 当 然 不 知道 ! 
但 为 什么 呢 ? “United States of America” 和 “The sky is blue in 
color” 之 间 有 什么 区 别 ? 关键 区 别 在 于 ， 其 中 一 个 短语 的 使 用 频率 要 比 另 一 个 大 得 
多 ， 而 通过 缩写 一 个 经 常 使 用 的 短语 而 非 一 个 极 少 使 用 的 短语 ， 我 们 可 以 节省 大 量 


力气 。 
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计算 机 用 于 存储 符号 的 数字 码 
让 我 们 尝试 将 这 个 想法 应 用 到 上 一 页 的 代码 系统 中 去 。 我 们 已 经 知道 ， 通 过 使 
用 经 常用 到 的 东西 的 缩写 ， 我 们 节省 的 力气 能 达到 最 大 。 字 母 “e” 和 “t” 在 严 语 
中 使 用 得 最 频繁 ， 让 我 们 尝试 用 更 短 的 代码 来 代替 这 两 个 字母 。 现 在 ，“"e” 是 


31 ，“i” 是 46 一 一 每 个 字母 都 需要 两 个 数字 代表 。 将 两 个 数字 减 成 一 个 数字 呢 ? 
假设 现在 “e” 由 8 代表 ，“t” 由 9 代表 。 这 个 主意 大好 了 ! 记得 我 们 之 前 是 如 何 编 
码 短 句 “Meet your fiance there” (去 那 见 你 的 未 婚 夫 ) 的 吧 ， 当 时 一 共用 了 
46 个 数字 。 现 在 我 们 可 以 只 使 用 46 个 数字 : 


Meet your fiance there. 
138 8 9 6065141474400323527402982069 348 448 66 


不 乎 的 是 ， 这 一 计划 有 个 致命 缺陷 。 计 算 机 并 不 仓储 单个 字母 间 的 空格 。 因 此 
编码 不 会 像 "13 8 8 9 60 51 . . . 44 8 66” ,而 是 和 “138896651. . . 
44866” 一 样 。 你 友 现 问题 了 没有 ? 集中 看 前 5 个 数字 ， 也 就 是 13889。 注 意 代 码 13 
代表 “M”，8 代 表 “e”，9 代 表 “t”， 因 此 数字 13889 的 解码 方式 之 一 是 将 其 拆 成 
13-8-8-9， 得 到 单词 “Meet”。 但 88 代 表 重 读 符 号 “u”“， 因 此 数字 13889 也 可 能 
拆 分 为 13-88-9， 即 “Mut”。 事 实 上 ， 情 况 还 可 以 更 糟 ， 因 为 89 代 表 另 一 个 略为 不 
同 的 重读 符号 人 5”， 因 此 13889 的 另 一 种 可 能 拆 分 是 13-8-89， 代 表 “Meu”。 根 
本 没 办 法 分 辨 这 三 种 可 能 的 翻译 中 哪 种 正确 。 


这 是 一 场 灾难 ! 我 们 使 用 更 短 的 代码 代表 字母 “e” 和 “t” 的 精巧 计划 ， 导致 
了 一 个 根本 不 奏效 的 编码 系统 。 幸 运 的 是 ， 表 多 使 用 一 种 把 戏 束 能 弥补 。 真 正 的 问 
题 是 当 我 们 看 到 数字 8 或 9 时 ， 我 们 无 从 分 辨 它 是 一 个 一 位 数 代码 ( 不 管 是 “e” 还 
是 “t” ) 的 一 部 分 ， 还 是 一 个 以 8 或 9 开头 的 两 位 数 代码 ( 如 重读 符 
号 “a” 和“e” 等 ) 的 一 部 分 。 要 解决 这 个 问题 ， 我 们 必须 有 所 牺牲 : 一 些 代码 实 
际 上 会 变 得 更 长 。 以 8 或 9 开头 的 清楚 的 两 位 数 代 码 会 变 成 三 位 数 代 码 ， 但 并 不 会 以 8 
或 9 开头 。 下 文 的 图 表 展 示 了 一 种 达成 这 一 目的 的 特殊 方法 。 一 些 标点 符号 也 受到 了 
影响 ， 但 最 终 情 况 民 好 : 任何 以 7 开头 的 数字 都 是 三 位 数 代码 ， 任 何以 8 或 9 开始 的 数 


字 都 是 一 位 数 代码 ， 任 何以 9、1、2、3、4、5 或 6 开头 的 数字 都 是 和 前 面 一 样 的 两 
位 数 代码 。 因 此 ， 现 在 拆 分 数字 13889 的 方法 只 有 一 种 ( 13-8-8-9， 代 

表 “Meet” ) 一 一 这 也 是 用 于 其 他 任何 正确 编码 的 数 子 字符 串 。 所 有 模糊 性 都 被 消 
除了 ， 原 始 消 息 的 新 编码 如 下 : 


Meet your fiance there. 
138 8 9 6805141474460603235274062978288689 348 448 66 


原始 编码 使 用 了 46 个 数字 ， 这 次 只 使 用 了 41 个 数 子 。 这 看 起 来 也 许 只 是 节省 了 
一 操 凡 ， 但 如 果 是 一 条 更 长 的 信息 ， 蔬 省 的 长 度 束 会 非常 明显 。 比 如 ， 本 书 文本 

( 只 有 文字 ， 没 有 图 像 ) 要 求 将 近 568 KB 一 一 56 万 字符 一 一 的 存储 空间 。 但 在 使 用 
了 网 网 描述 的 两 种 把 戏 压 缩 后 ， 本 书 文本 的 体积 减少 到 只 有 168 KB， 不 到 原 体积 的 
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使 用 更 短 符号 把 戏 的 数字 码 。 与 上 一 个 表格 的 不 同 以 黑体 显示 ， 两 个 常用 字母 的 代码 被 缩短 了 ， 代 价 是 用 更 大 的 


数字 增长 了 不 常用 符号 的 代码 。 结 果 是 大 部 分 消息 的 总 长 度 缩短 。 


忌 结 : 免费 午餐 来 目 何方 ? 


现在 ， 我 们 理解 了 创建 计算 机 标准 压缩 ZIP 文 件 背后 的 所 有 重要 慨 念 。 


体 实施 步骤 : 


步骤 一 : 


计算 机 使 用 同 前 把 戏 传输 未 经 压缩 的 原文 件 ， 让 文件 中 绝 大 多 数 重 复数 据 由 短 
得 多 的 指令 取代 ， 这 些 指令 会 返回 并 拷贝 其 他 地 万 的 数据 。 


计算 机 会 检查 传输 后 的 文件 ， 选 出 经 单 出 现 的 符号 。 比 如， 如 果 原 文件 以 英语 
为 书写 语言 ， 那么 计算 机 就 很 有 可 能 会 故 现 “e” 和 “t” 是 最 常 出 现 的 两 个 符号 。 
随后 ， 计 算 机 会 创建 一 张 如 下 页 的 表格 ， 用 短 数字 码 代表 经 常用 到 的 符号 ， 用 更 长 
的 数字 码 代表 极 少 用 到 的 符号 。 


计算 机 会 通过 直接 将 文件 翻译 为 步骤 二 中 的 数字 码 来 再次 传输 文件 。 


步骤 二 中 计算 出 的 数字 码 表 也 会 存储 在 ZIP 文 件 中 ， 否 则 在 后 面 不 可 能 解码 ( 并 
解压 ) ZIP 文 件 。 注 意 ， 不 同 的 未 压缩 文件 会 得 到 不 同 的 数字 码 表 。 事 实 上 ， 在 真正 
的 zIP 文 件 中 ， 原 文件 被 分 成 了 小 块 ， 每 个 块 都 有 不 同 的 数字 码 表 。 计 算 机 能 自动 高 
效 地 完成 所 有 这 些 步骤 ， 实 现 多 种 文件 的 优质 压缩 。 


有 损 压缩 : 不 是 免费 午餐 ， 但 也 是 一 笔 好 买卖 


到 目前 为 止 ， 我 们 一 直 都 在 讨论 无 损 压 缩 ， 因 为 你 能 将 压缩 过 的 文件 重新 组 建 
成 一 开始 使 用 的 原文 件 ， 连 一 个 字母 或 一 个 标点 符号 都 没有 改变 。 相 反 ， 有 时 候 使 


用 有 损 压 缩 要 有 用 得 多 。 有 损 压 缩 能 让 你 将 一 个 压缩 过 的 文件 重新 组 建成 一 个 和 原 
文件 非 党 类似， 但 并 不 完全 和 原文 件 相 同 的 文件 。 比 如 ， 有 损 压 缩 经 常用 于 包含 图 
片 或 音频 数据 的 文件 : 只 要 照片 在 人 眼中 看 起 来 一 样 ， 在 计算 机 上 存储 照片 的 文件 
是 否 和 在 相机 中 存储 照片 的 文件 相同 其 实 并 不 重要 。 同 样 的 道理 也 适用 于 音频 数 
据 : 只 要 歌曲 在 人 和 耳 中 听 起 来 一 样 ， 在 数字 音乐 播放 器 上 存储 歌曲 的 文件 是 否 和 在 
CD 中 存储 歌曲 的 文件 相同 也 并 不 重要 ，。 


事实 上 ， 有 时 候 有 损 压缩 会 以 更 为 极端 的 方式 使 用 。 我 们 都 看 过 互联 网 上 的 低 
质量 视频 和 图 片 ， 里 面 的 画 质 蛋 糊 ， 音 质 糟糕 。 这 是 过 度 使 用 有 损 压 绾 的 结果 ， 目 
的 是 让 视频 或 图 像 文 件 体积 变 得 非常 小 。 我 并 不 是 要 说 视频 看 起 来 要 和 原 视频 一 
样 ， 但 至 少 也 要 可 以 看 清 。 通 过 调整 压缩 的 “损失 率 ”， 网 站 操作 人 员 可 以 在 看 起 
来 和 听 起 来 几 近 完美 的 高 质量 大 文件 ， 以 及 有 着 明显 缺陷 但 传输 市 宽 要 求 很 少 的 低 
质量 文件 之 间 进 行 选择 。 你 也 可 能 在 数码 相机 上 做 过 同样 的 事 ， 通 常 你 能 选择 图 像 
和 视频 质量 的 不 同 设置 。 如 果 你 选择 高 质量 设置 ， 你 能 在 相机 上 存储 的 照片 或 视频 
数 ， 就 会 比 选择 低 质 量 设置 时 少 很 多 。 这 是 因为 高 质量 媒体 文件 要 比 低 质量 媒体 文 
件 占据 更 多 空间 。 而 这 一 切 都 只 需 通过 调整 压缩 “损失 率 ” 来 完成 。 接 下 来 ， 我 们 
将 探究 几 种 进行 这 一 调整 的 把 戏 。 


抛弃 把 戏 


有 损 压 缩 的 一 个 简单 且 有 效 的 方法 是 直接 抛弃 一 些 数据 。 让 我 们 来 研究 一 
下 “抛弃 ”把 戏 ( leave-it-out ”trick ) 如 何在 黑 日 照片 上 运用 。 我 们 首先 要 了 
解 一 点 黑白 照片 如 何在 计算 机 上 存储 的 知识 。 照 片 由 大 量 小 点 组 成 ， 这 些小 点 被 称 
为 “像素 ”。 每 个 像素 只 有 一 种 颜色 ， 这 种 颜色 可 以 是 黑 ， 也 可 以 是 日 ， 或 黑 与 日 


之 间 的 任意 灰 度 。 当 然 ， 我 们 通常 不 会 意识 到 这 些 像素 ， 因 为 它们 太 小 了 ， 但 如 果 
你 离 显示 器 或 电视 屏 足 够 近 ， 残 能 看 到 单个 像素 。 


在 计算 机 中 存储 的 黑 日 照片 里 ， 每 个 可 能 的 像素 颜色 都 由 一 个 数字 代表 。 比 
如 ， 让 我 们 假设 越 大 的 数字 代表 越 日 的 颜色 ，166 是 最 大 的 数字 。 因 此 166 代 表 日 
色 ,6 代表 黑色 ，58 代 表 中 等 灰 度 ，98 代 表 浅 灰 等 等 。 像 素 按照 矩形 方 阵 排列 ， 其 中 
每 个 像素 都 代表 图 片 中 一 些 非常 小 的 部 分 的 颜色 。 万 阵 的 行列 总 数 束 是 图 像 的 “ 解 
析 度 ”。 比 如 ， 许 多 高 清 电视 的 解析 度 是 1 926x1 686， 这 意味 着 图 像 有 1 926 列 
和 1 6886 行 像素 。 像 素 总 数 就 是 1 926 乘 以 1 888， 也 就 是 逾 两 百 万 像素 ! 数字 相机 
也 使 用 相同 的 术语 。 “megapixe1” 只 是 个 用 来 表示 上 百 万 像素 的 化 哨 名 字 。 因 此 ， 
一 台 566 万 像素 的 相机 有 足够 多 行 和 足够 多 列 的 像素 ,， 当 你 将 行 数 和 列 数 相 乘 后 ,得 
到 的 数 束 会 超过 568 万 。 当 照片 存储 在 计算 机 中 时 ， 它 就 是 一 个 数字 列表 ， 每 个 像素 
都 由 数字 代表 。 


下 图 中 左上 方 的 市 角楼 的 房屋 照片 , 比 高 清 电视 的 解析 度 低 很 多 : 只 有 
326x246。 不 过 ， 其 像素 数目 仍然 相当 大 ( 326x246 = 76 888 )， 和 存储 这 张 照 厂 
的 文件 ,在 未 压缩 形式 下 占用 了 超过 236 KB 的 存储 空间 。1 KB 约 相当 于 1 866 个 文本 
字符 一 一 差不多 是 一 段 电 子 邮件 的 体积 。 因 此 ， 左 上 方 的 图 在 作为 文件 存储 时 ， 需 
要 占用 的 空间 约 等 于 266 条 短 电 子 邮件 消息 。 


我 们 可 以 用 下 列 非 常 简单 的 技术 来 压缩 这 个 文件 : 每 两 行 或 每 两 列 像素 残 忽略 
或 “抛弃 ”一 行 或 一 列 。 抛 弃 把 戏 束 是 这 么 信 单 ! 在 这 个 例子 中 ， 结 果 是 得 到 了 一 
张 解 析 度 更 小 的 照片 ， 这 张 解析 度 为 166x128 的 新 照片 在 图 中 原 照片 下 面 显 示 。 新 
文件 的 体积 只 有 原文 件 的 四 分 之 一 ( 约 57 KB ) 。 这 是 因为 新 图 片 的 像素 只 有 原 图 片 
像素 的 四 分 之 一 多 一 一 我 们 同时 去 除了 原 图 片 宽 和 高 各 一 半 的 像素 。 相 当 于 原 图 片 


次 是 水 平方 向 ， 一 次 是 垂直 方向 一 一 结果 惑 是 最 终 体 积 只 





的 体积 减 小 了 一 半 
有 原 体积 的 1/4。 





我 们 还 可 以 再 用 一 次 抛弃 把 戏 。 将 新 的 166x126 像 素 图 片 每 两 行 或 每 两 列 像素 
抛弃 一 行 或 一 列 ， 得 到 另 一 张 806x66 的 新 图 片 ， 结 果 显示 在 下 图 的 左下 方 。 这 张 图 
片 的 体积 又 缩小 了 3/4， 其 最 终 体 积 只 有 14 KB。 相 当 于 原始 文件 体积 的 6%， 这 一 压 
缩 比 率 令 人 印象 非 单 深刻 。 





320 x 240 像 素 
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80 x 60 像 素 
[14KB] 





解压 自 80 x 60 像 素 
[14KB] 
运用 抛弃 把 戏 的 压缩 ， 左 边 显示 的 是 原始 图 片 ， 以 及 两 张 该 图 片 的 缩减 版 。 每 张 缩减 后 的 图 片 ， 都 通过 抛弃 前 一 
张 图 片 一 般 的 行 和 列 计算 得 出 。 右 边 是 将 缩减 后 的 图 片 解压 到 原始 图 片 同样 大 小 时 的 解压 效果 图 。 重 构 并 不 完 
美 ， 重 构图 和 原 图 有 明显 区 别 。 


但 请 记 住 ， 我 们 在 使 用 有 损 压 缩 ， 并 没有 免费 午餐 。 午 餐 很 便宜 ， 但 我 们 必须 
付 钱 。 当 我 们 将 压缩 过 的 文件 之 一 解压 到 原 图 大 小 时 ， 看 看 友 生 了 什么 。 因 为 其 中 
一 些 像素 行 和 列 被 删除 ,计算 机 必须 推测 这 些 消失 像素 的 颜色 是 什么 。 最 简单 的 可 
能 推测 是 给 任 一 消失 像素 以 其 相 邻 像素 之 一 的 颜色 。 选 择 任 一 相 邻 像素 都 可 以 ， 但 
在 这 个 例子 里 ， 计 算 机 选择 了 消失 像素 正 上 方 和 左边 的 像素 。 


这 一 解压 机 制 的 结果 显示 在 图 右 侧 。 能 看 到 大 部 分 视觉 特征 得 到 了 保留 ， 但 在 
画 质 和 细节 上 有 一 些 明显 损失 ， 特 别 是 在 树 、 角 楼 房 顶 以 及 房屋 山形 墙 的 格子 通气 
孔 等 复杂 区 域 。 另 外 ， 特 别 是 在 解压 自 86x668 图 片 的 版 本 中 ， 你 能 在 房屋 屋顶 的 斜 
绪 等 区 域 看 到 一 些 相当 令 人 不 悦 的 饥 具 。 这 些 现象 被 我 们 称 为 “压缩 缺 
陷 ” (compression artifact ) : 不 仅仅 是 细节 的 损失 ， 而 且 有 损 压 缩 的 某 种 方 
法 会 在 接 下 来 的 解压 中 引入 明显 的 新 特征 。 


尽管 抛弃 把 戏 在 理解 有 损 压 缩 的 基本 思想 上 很 有 和 用， 但 在 这 里 描述 的 简单 抛弃 
把 戏 却 极 少 用 到 。 计 算 机 的 确 会 “ 抛 茎 ”信息 以 实现 有 损 压缩 ， 但 它们 对 抛 借 哪些 
信息 却 要 小 心得 多 。 这 方面 的 常见 例子 之 一 ， 丈 是 JPEG 图 像 压 缩 格式 。JPEG 是 一 种 
精心 设计 的 图 像 压 缩 技术 ， 它 在 效果 上 要 比 每 两 行 ( 列 ) 抛弃 一 行 ( 列 ) 的 抛弃 把 
戏 好 很 多 。 仔 细 看 看 下 面 的 图 ， 将 图 片 的 质量 和 大 小 与 上 图 相 比 。 最 上 方 的 JPEG 图 
片 大 小 为 35 KB， 但 几乎 和 原始 图 片 相同 。 通 过 抛弃 更 多 信息 并 继续 使 用 JPEG 格 
式 ， 我 们 得 到 了 中 间 大 小 为 19 KB 的 图 。 尽 管 房屋 的 格子 通气 也 有 些 模 糊 和 细节 上 的 
损失 ， 但 中 间 图 片 的 质量 依然 很 棒 。 但 如 果 压 缩 得 太 厉害 ，JPEG 格 式 也 会 有 压 顷 缺 
陷 : 最 底部 的 JPEG 图 被 压缩 到 只 有 12 KB， 你 能 看 到 天 空中 出 现 了 一 些 块 状 效果 ， 


本 原理 还 算 好 说 。JPEG 首 先 将 整 张 图 片 划分 为 8x8 像 素 的 小 万 块 ， 每 个 方块 都 会 被 

单独 压缩 。 注 意 ， 在 没有 压缩 的 情况 下 ， 每 个 方块 代表 8x8=64 个 数字 。 ( 我 们 假设 
这 是 张 黑 日 照片 一 一 如 果 它 是 彩色 图 片 ， 那 么 就 会 有 三 种 不 同 的 颜色 ， 数 字 会 是 原 
来 的 三 倍 ， 但 在 这 里 我 们 不 要 担心 这 一 细节 。 ) 如 果 方 块 恰好 只 有 一 种 颜色 ， 整 个 

方块 束 能 由 一 个 数字 代表 ， 而 计算 机 丈 能 “抛弃 ”63 个 数 子 。 如 果 方 块 大 部 分 由 一 
种 颜色 组 成 ， 只 有 少数 像素 的 颜色 略 有 不 同 ( 也 许 一 片 天 空 的 灰 度 都 相同 ) ， 计 算 

机 也 可 以 用 单个 数字 代表 方块 ， 让 方块 得 到 好 的 压缩 结果 ， 并 在 稍 后 解压 时 只 出 现 

少量 错误 。 在 上 图 中 的 最 后 一 张 图 中 ， 天 空中 一 些 8&x8 的 块 ， 融 是 采用 这 种 方法 压 

缩 ， 导 致 出 现 了 一 些 单 色 方 块 。 





JPEG[35KB] 





JPEG[19KB] 





JPEG[12KB] 


使 用 有 损 压 缩 机 制 ， 更 高 的 压缩 得 到 的 画 质 更 低 。 这 里 展示 了 使 用 三 种 不 同 ]PEG 质 量 级 别 压 缩 同 一 张 照片 后 得 
到 图 片 。 最 上 面 的 图 片 质量 最 高 ， 同 时 要 求 的 存储 空间 也 最 多 。 最 下 面 的 图 片 质量 最 低 ， 要 求 的 存储 空间 不 到 最 
上 面 图 片 的 一 半 ， 但 却 有 明显 的 压缩 缺陷 一 一 特别 是 在 天 空 和 房 顶 边缘 。 


如 果 8x 8 方块 从 一 种 颜色 渐变 为 另 一 种 颜色 ( 比如 左边 是 深 灰 色 ， 右 边 是 浅 灰 
色 ) ， 那 么 64 个 数字 也 许 能 被 压缩 到 只 有 2 个 : 一 个 深 灰 的 值 和 一 个 浅 灰 的 值 。 


]pPEG 算 法 并 不 一 定 这 么 运作 ， 但 它 使 用 了 相同 的 思想 : 如 果 一 个 8x8 方 块 符合 一 些 
已 知 模式 如 时 时 色 ( constant color ) 或 渐变 色 ( smoothly varying color ) 的 


组 合 ， 那 么 其 大 部 分 信息 束 可 以 被 抛 茎 ， 只 需 存储 每 个 模式 的 级 别 或 量 即 可 。 


JPEG 格 式 在 图 片上 效果 恨 好， 但 对 音频 和 和 音乐 文件 呢 ? 这 些 文件 也 能 使 用 有 损 
压缩 去 压缩 ， 而 且 使 用 了 相同 的 基本 思想 : 抛弃 对 成 品 影响 很 小 的 信息 。MP3 和 和 AAC 
等 流行 音乐 压缩 格式 通常 使 用 和 JPEG 一 样 的 高 级 方法 。 音 频 也 会 被 划分 成 块 ， 每 个 
块 都 会 被 单独 压缩 。 在 ]PEG 中 ， 以 特定 方式 变化 的 块 能 用 少量 数字 形容 。 不 过 ， 音 
频 压缩 格式 也 能 利用 与 人 耳 有 天 的 已 知事 实 。 特 别 是 ， 有 尝 种 类 的 声音 对 人 只 有 很 
小 的 影响 或 没有 影响 ， 因 此 压缩 算法 能 在 不 降低 输出 质量 的 情况 下 消除 这 些 声 音 。 


压缩 算法 的 起 源 


本 章 拉 述 的 同 前 把 戏 一 一 用 于 ZIP 文 件 中 的 压缩 方法 之 一 一 一 以 LZ77 算 法 为 计 
算 机 科学 家 所 熟知 。 这 一 算法 由 两 位 以 色 列 计算 机 科学 家 亚伯拉罕 . 伦 佩 尔 
( Abraham Lempel ) 以 及 雅 各 布 : 齐 夫 ( Jacob Ziv ) 于 1977 年 发 表 。 


不 过 ， 要 追溯 压缩 算法 的 起 源 ， 我们 需要 把 科学 史 向 前 推 36 年 。 我 们 已 经 了 解 
了 克 劳 德 .香农 ， 那 位 以 其 1948 年 论文 创建 信息 理论 领域 的 贝尔 实验 室 科学 家 。 香 农 
是 纠 错 码 故事 中 ( 第 五 章 ) 的 两 位 主要 灵 雄 之 一 ， 但 他 以 及 他 于 1948 年 上 友 表 的 论文 
在 压缩 算法 的 出 现 上 也 扮演 了 重要 角色 。 


这 并 非 偶 然 。 事 实 上 ， 纠 错 码 和 压缩 算法 是 同一 枚 硬币 的 两 面 。 两 者 都 来 自 见 
余 的 想法 ， 我 们 在 第 五 章 详细 介绍 了 元 余 的 概念 。 如 果 一 个 文件 有 元 余 ， 它 束 比 必 
要 的 长 度 长 。 这 里 重复 一 个 第 五 章 的 和信 单 例子 ， 文 件 可 以 使 用 单词 “five” 来 代 蔡 
数字 “5”。 那 样 的 话 ， 像 “fivq” 这 样 的 错误 束 能 被 轻易 识别 和 纠正 。 因 此 ， 纠 错 
码 能 航 视 为 疝 消 息 或 文件 中 添加 元 余 的 原则 性 方法 。 


压缩 算法 正好 相反 : 它们 会 从 消息 或 文件 中 移 除 见 余 。 很 容易 想象 一 个 压缩 算 
法 会 注意 到 文件 中 经 常 使 用 单词 “five”， 并 用 一 个 更 短 的 符号 取代 它 ( 甚至 有 可 
能 是 符号 “5” ) ， 正 好 反 转 了 纠 错 码 过 程 。 在 现实 中 ， 压 缩 和 纠 错 并 不 会 像 这 样 役 
此 抵消 。 相 反 ， 好 的 压缩 算法 会 移 除 低 效 元 余 ， 而 纠 错 编码 会 增加 另 一 种 更 高 效 的 
风 余 。 因 此 ， 首先 压缩 一 条 信息 ， 表 往 里 面 添 加 一 些 纠 错 码 非常 常见 。 


再 说 回 香 农 ， 他 于 1948 年 上 友 明 的 重要 论文 除了 许多 卓越 贡献 之 外 ， 还 包含 对 最 
早期 压缩 技术 之 一 的 描述 。 麻 省 理工 学 院 教授 罗伯特 :法 诺 ( Robert Fano ) 大 约 在 
同时 发 明了 这 一 技术 ， 这 一 方法 现在 以 香农 一 法 诺 编 码 ( Shannon-Fano coding ) 
命名 。 事 实 上 ， 香农 一 法 诺 编 码 是 一 种 实施 更 短 符号 把 戏 的 特殊 方法 ， 我 们 在 本 章 
前 面 摘 述 了 更 短 符 号 把 戏 。 我 们 很 快 融会 知道 ， 香 农 一 法 诺 编 码 很 快 残 补 另 一 种 算 
法 取代 ， 但 这 一 方法 非常 有 效 ， 并 存活 到 了 今天 ， 成 为 ZIP 文 件 格 式 的 可 选 压缩 方法 
之 一 。 


香农 和 法 庄 都 意识 到 ， 尽管 他 们 的 方法 都 既 实用 又 高 效 ， 但 却 不 是 最 好 的 算 
法 : 香农 通过 算术 证 明了 肯定 有 更 好 的 压缩 技术 存在 ， 但 还 未 找到 实现 它们 的 方 
法 。 同 时 ， 法 诺 在 麻 省 理工 教授 一 门 信息 理论 的 研究 生 课程 ， 他 将 实现 优化 压缩 的 
问题 作为 该 课程 学 期 论文 的 可 选项 之 一 。 出 人 意料 的 是 ， 法 庄 的 一 位 学 生 解 决 了 这 
一 问题 ， 得 到 了 一 种 针对 每 个 符号 取得 最 佳 可 能 压 绾 的 方法 。 这 名 学 生 残 是 大 卫 ' 惟 
夫 曼 ， 他 的 技术 一 一 现在 以 霍 夫 曼 编码 来 命 则 是 更 短 符号 把 戏 的 另 一 个 例 
子 。 铃 夫 曼 编码 仍然 是 一 种 基础 压缩 算法 ， 航 广泛 用 于 通信 和 数据 仓储 系统 。 





[1] 原 注 : 答案 是 字母 A 重 复 251 次 。 


第 八 章 
数据 库 
一 一 追求 一 致 性 的 征程 


“数据 ! 数据 ! 数据 ! ”他 不 耐烦 地 喊 道 : “没有 数据 怎么 推导 。” 


一 阿 瑟 :柯南 道 尔 
《福尔摩斯 探 案 集 》 之 《 桐 山 毛 样 案 》 ( The Adventure of the Copper Beeches ) 


想象 如 下 神秘 仪式 : 一 个 人 从 打上 拿 起 一 丛 特 别 印 制 的 纸 ( 支票 簿 )， 在 上 面 
写 下 一 毕 数 字 ， 再 加 上 一 个 市 花饰 的 釜 名 。 随 后 ， 这 个 人 把 这 得 纸 最 上 面 的 一 张 纸 
撕 下 来 ， 放 进 信封 ， 再 用 另 一 张 纸 ( 邮票 ) 贴 在 信封 正面 。 最 后 ， 这 个 人 把 信封 帝 
到 外 面 ， 走 过 街道 尽头 ， 将 信封 放 入 一 个 大 箱子 内 。 


这 是 任何 交 账 单 的 人 一 一 电话 账单 、 电 费 账单 、 信 用 卡 账单 等 一 一 每 月 都 要 进 
行 的 仪式 。 直 到 21 世 纪 之 交 时 ， 在 线 账单 支付 和 在 线 银行 系统 才 友 展 起 来 。 和 这 些 
系统 的 简便 性 相 比 ， 之 前 基于 纸张 的 方法 费时 费力 、 极 其 低 效 。 


哪些 技术 让 这 一 转变 成 为 可 能 ? 最 显然 的 答案 是 互联 网 的 到 来 ， 没 有 互联 网 ， 
任何 形式 的 在 线 通 信和 都 不 可 能 。 另 一 项 关键 技术 是 公 钥 加 密 ， 这 一 点 我 们 已 经 在 第 
四 章 讨论 过 。 没 有 公 钥 加 密 ， 机 密 财务 信息 就 不 能 通过 互联 网 安全 地 进行 传输 。 不 
过 ， 在 线 交易 至 少 还 需要 另 一 种 至 关 重 要 的 技术 : 数据 库 。 幸 好 绝 大 多 数 计算 机 用 
户 不 用 意识 到 数据 库 的 存 企 ， 但 基本 上 所 有 在 线 交 易 都 会 使 用 成 熟 的 数据 库 技 术 处 
理 。 计 算 机 科学 家 们 自从 28 世 纪 76 年 代 就 开始 开发 数据 库 技术 。 


数据 库 针 对 交易 处 理 中 的 两 个 主要 问题 : 高 效 性 和 可 靠 性 。 数 据 库 通过 算法 实 
现 高 效 性 和 可 靠 性 ， 这些 算法 允许 成 干 上 万 的 客户 在 不 产生 任何 冲突 或 不 一 致 的 情 
况 下 同时 进行 交易 ， 也 可 以 在 硬盘 等 计算 机 组 件 出 现 故 障 的 情况 下 保持 数据 完整 ， 
而 硬盘 故障 通常 会 导致 严重 的 数据 损失 。 在 线 银行 就 是 一 个 标准 的 需要 卓越 高 效 性 
( 同时 服务 众多 客户 且 不 能 产生 任何 错误 或 不 一 至 ) 和 近乎 完美 的 可 靠 性 的 应 用 例 
子 。 为 收 束 我 们 的 讨论 ， 我 们 会 经 常 返 回 在 线 银行 的 例子 。 


本 章 中 ， 我 们 将 了 解数 据 库 背 后 三 种 美丽 的 基础 思想 : 预 写 日 志 记 录 ( write- 
ahead logging ) 、 两 阶段 提交 ( two-phase commit ) 和 关系 数据 库 


( relational database ) 。 这 些 思想 让 存储 特定 种 类 重要 信息 的 数据 库 技术 占据 


了 绝对 的 主宰 地 位 。 和 前 面 一 样 ， 我 们 将 尝试 专注 于 每 种 思想 背后 的 核心 洞 见 ， 认 
识 一 种 让 思想 奏效 的 把 戏 。 预 写 日 志 记 录 的 基础 是 “ 待 办 事项 表 把 戏 ” ( to-do 


list trick )， 我们 将 首先 处 理 这 一 把 戏 。 之 后 ， 我 们 会 转移 到 两 阶段 提交 协议 ， 
用 简单 但 强大 的 “预备 提交 把 戏 ” ( prepare-thencommit trick ) 描述 。 最 后 ， 
我 们 会 通过 了 解 有 关 “ 虚 表 把 戏 ” ( virtual table trick ) 的 知识 ， 一 规 关 系数 
据 库 的 世界 。 


但 在 学 习 这 些 把 戏 之 前 ， 让 我 们 先 尝试 消除 数据 库 的 神秘 感 ， 明 日 数据 库 是 什 
么 。 事实 上 ， 即便 是 在 技术 性 计算 机 科学 文献 中 ，“database” ( 数据 库 ) 这 个 单 
词 都 代表 很 多 不 同 的 事物 ， 因 此 不 可 能 给 它 下 一 个 单一 的 、 正 确 的 定义 。 但 绝 大 多 
数 专家 都 同意 ， 数 据 库 有 别 于 其 他 存储 信息 的 方式 的 关键 特征 是 ， 数 据 库 中 的 信息 
有 一 个 预定 义 结 构 。 


要 理解 这 里 的 “结构 ”意味 着 什么 ， 让 我 们 首先 来 看 一 个 非 结构 化 信息 的 例 


罗 西 娜 35 岁 ， 她 和 26 风 的 玛 特 是 朋友 。 静 宜 37 岁 ， 苏 巡 普 31 岁 。 玛 特 、 衣 
宜 和 苏 迪 普 都 是 朋友 。 


EG 


就 是 Facebook 或 MySpace 等 社交 网 站 需要 存储 的 与 其 成 员 有 关 的 那 类 信息 。 
不 过 ， 这 此 


十 交 网 站 自然 不 会 如 此 富 无 结构 地 存储 信息 。 下 面 是 相同 信息 的 结构 化 





计算 机 科学 家 称 这 种 结构 为 表 ( table ) 。 表 的 每 一 行 都 包含 和 单 件 事情 ( 在 这 
个 例子 里 融 是 一 个 人 ) 有 关 的 信息 。 表 的 每 一 栏 都 包含 一 个 特定 种 类 的 信息 ， 如 一 
个 人 的 年 龄 或 名 字 。 数 据 库 通 常 由 许多 表 组 成 ， 但 为 简单 起 见 ， 我 们 最 开始 的 例子 
只 会 使 用 一 个 表 。 


很 显然 ， 让 人 和 计算 机 操纵 结构 化 表格 中 的 数据 ， 要 比 上 个 例子 中 非 结 构 化 的 
自由 文本 远 为 高 效 。 但 数据 库 对 它们 的 作用 要 远 比 便于 使 用 多 得 多 。 


我 们 进入 数据 库 世界 的 旅程 将 从 一 个 新 概念 开始 : 一 致 性 ( consistency ) 。 
我 们 很 快 就 会 发 现 ， 数 据 库 从 业者 痴迷 于 一 致 性 ， 而 且 这 么 做 还 有 着 很 好 的 理由 。 
从 简单 意义 上 来 说 ，“ 一 致 性 ”指数 据 库 中 的 信息 并 不 自 相 矛 盾 。 如 果 数 据 库 中 有 
矛盾 之 处 ， 我 们 就 磁 到 了 数据 库 管 理 员 最 糟 炼 的 露 梦 : 不 一 致 。 不 过 ， 一 开始 不 一 
致 是 如 何 产生 的 呢 ? 想象 上 表 的 前 两 行 略 为 改变 : 





你 能 友 现 问题 所 在 吗 ” 从 第 一 行 看 ， 罗 西 娜 是 静 宜 的 朋友 。 但 从 第 二 行 来 看 ， 
静 宜 并 没有 成 为 罗 西 娜 的 朋友 。 这 违背 了 朋友 的 基本 概念 ， 只 有 两 个 人 同时 是 朋 
友 ， 才 能 称 彼此 为 朋友 。 不 得 不 承认 ， 这 个 不 一 致 的 例子 相当 温和 。 想 象 一 个 更 严 
肃 的 例子 ， 假 设 用 “婚姻 ”的 概念 取代 “朋友 ”。 那 么 结果 会 是 A 和 B 结 了 婚 ， 但 8 又 
和 Cc 结 了 婚 一 一 这 种 情况 在 许多 国家 都 违法 。 





实际 上 ， 当 新 数据 加 入 数据 库 时 ， 这 种 不 一 致 很 容易 避免 。 计 算 机 非常 擅长 昭 
章 办 事 ， 因 此 让 数据 库 遵 循 “ 如 果 A 和 B 结 了 婚 ， 那么 B 必 须 也 和 A 结婚 ”的 规则 会 很 
容易 。 如 果 有 人 试图 输入 一 条 违反 这 条 规则 的 新 行 ， 他 们 会 收 到 一 条 错误 消息 ， 输 
入 也 会 失败 。 因 此 ， 在 简单 规则 的 基础 上 确保 一 致 性 并 不 需要 任何 机 巧 把 戏 。 


但 其 他 种 类 的 不 一 致 需要 更 为 精巧 的 解决 方案 。 我 们 将 在 下 一 部 分 研究 其 中 一 
种 不 一 致 情况 。 


事务 和 待 办 事项 表 把 戏 


事务 ( Transaction ) 极 有 可 能 是 数据 库 世界 中 最 重要 的 思想 。 但 要 理解 它们 
是 什么 ， 以 及 它们 为 什么 必要 ， 我 们 需要 接受 有 关 计 算 机 的 两 个 事实 。 你 也 许 非常 
熟悉 第 一 个 事实 : 计算 机 程序 会 月 溃 一 一 当 一 个 程序 崩溃 时 ， 它 会 丢掉 所 有 正在 处 
理 的 东西 。 只 有 安放 在 计算 机 文件 系统 中 的 信息 会 得 到 保存 。 我 们 要 知道 的 第 二 个 
事实 不 太 为 人 所 知 ， 但 却 极其 重要 : 硬盘 和 | 闪存 条 等 计算 机 存储 设备 一 次 只 能 写 入 
少量 数据 一 一 基本 上 在 566 个 字符 左右 。 ( 如 果 你 对 技术 术语 感 兴趣 ， 我 这 里 说 的 
是 硬盘 肩 区 大 小 <sector size>， 通 常 一 个 扇 区 可 以 存放 512 个 字 节 的 信息 。 而 闪存 
的 相关 度量 单位 是 页 大 小 <page size>， 闪 存 每 页 能 存储 成 干 上 万 个 字 节 的 信 
息 。 ) 作为 计算 机 用 户 ， 我 们 从 未 注意 在 一 台 设 备 上 存储 数据 时 的 小 容量 限制 ， 





为 现代 设备 每 秒 能 执行 成 二 上 万 次 这 种 566 个 字符 的 写 入 操作 。 但 磁盘 内 容 每 次 只 能 
变数 百 个 字符 的 现实 依旧 。 


这 究竟 和 数据 库 有 什么 关系 ? 它 产生 了 一 个 极其 重要 的 后 果 : 一 般 来 说 ， 计算 
机 在 任何 时 候 都 只 能 更 新 一 行 数据 库 信 息 。 不 笠 的 是 ， 上 面 那个 非常 小 的 简单 例子 
并 没有 展示 这 一 点 。 上 面 整 个 表 只 包含 不 到 266 个 字符 ， 因 此 在 这 个 特例 里 ， 计 算 机 
应 该 能 一 次 更 新 两 行 。 但 通常 来 说 ， 对 于 任何 一 个 大 小 合理 的 数据 库 而 言 ， 更 改 两 
行 的 确 需要 两 次 单独 的 磁盘 操作 。 


在 了 解 了 这 些 背 景 后 ， 我们 就 能 触及 问题 核心 了 。 许 多 对 数据 库 看 似 简单 的 变 
更 要 求 更 改 两 行 或 更 多 。 我 们 现在 已 经 知道 ， 更 改 两 行 不 能 通过 一 次 磁盘 操作 实 
现 ， 因 此 数据 库 更 新 会 导致 两 次 或 更 多 的 磁盘 操作 。 但 计算 机 可 能 在 某 个 时 间 骨 
演 。 如 果 计 算 机 在 这 样 的 两 次 磁盘 操作 之 间 朋 省 怎么 办 ? 计算 机 会 重 局 ， 但 它 会 球 
掉 之 前 计划 执行 的 操作 ， 有 可 能 一 些 必要 更 改 从 未 进行 。 换 言 之 ， 数 据 库 可 能 处 于 
不 一 致 状态 ! 


在 这 种 情况 下 ， 衣 省 后 的 不 一 致 问题 看 起 来 也 许 会 相当 学 术 人 化。 因此， 我 们 将 
通过 两 个 例子 来 研究 这 一 极端 重要 的 问题 。 让 我 们 从 一 个 更 简单 的 数据 库 开始 : 


| 





这 个 非常 单调 、 令 人 泪 形 的 数据 库 列 出 了 三 个 孤独 的 人 。 现 在 假设 罗 西 娜 和 这 
宜 成 为 朋友 ， 我 们 要 更 新 数据 库 来 反映 这 一 令 人 高 兴 的 事件 。 正 如 你 知道 的 ， 这 一 
更 新 需要 同时 更 改 表 前 两 行 一 一 而 且 正 如 我 们 之 前 讨论 的 ， 这 通常 会 要 求 两 次 单独 
的 磁盘 操作 。 假 设 我 刚刚 更 新 了 第 一 行 。 在 这 次 更 新 后 ， 人 在 计算 机 有 机 会 执行 第 二 
次 磁盘 操作 更 新 第 二 行 前 ， 数 据 库 的 情况 如 下 : 





到 目前 为 止 ， 情况 一 切 良 好 。 现 在 ， 数据 库 程序 只 需 更 新 第 二 行 ， 任 务 就 完成 
了 。 但 等 等 : 如 果 计算 机 在 数据 库 程 序 有 机 会 这 么 做 之 前 就 崩溃 了 呢 ? 那么 在 计算 
机 重启 后 ， 它 不 会 知道 第 二 行 仍 需要 更 新 。 数 据 库 会 像 前 面 一 张 图 一 样 : 罗 西 娜 和 
静 宜 成 了 朋友 ， 但 静 宜 没有 和 罗 西 娜 成 为 朋友 。 这 融 是 让 人 害怕 的 不 一 致 性 。 


我 已 经 提 到 过 ， 数据库 操作 员 痴 迷 于 一 致 性 ,但 直到 现在 ， 一 致 性 看 起 来 也 不 
怎么 像 个 大 事 。 毕 竟 ， 静 宜 在 一 个 地 方 被 记录 和 某 人 成 为 朋友 ， 在 另 一 个 地 方 的 记 
录 里 则 没有 朋友 ， 这 真 的 重要 吗 ?我们 甚至 能 想象 出 一 个 经 常 扫描 数据 库 的 自动 化 
工具 ， 和 寻找 像 这 样 的 矛盾 之 处 并 修正 它们 。 事 实 上 ， 像 这 样 的 工具 确实 存在 ， 并 被 
用 于 一 致 性 处 于 次 要 位 置 的 数据 库 中 。 你 甚至 可 能 遇 到 过 这 样 的 例子 ， 一 些 操作 系 
统 在 衣 溃 后 重 局 时 ， 会 检查 整个 文件 系统 的 不 一 致 性 。 


但 确实 存在 不 一 致 性 非常 有 害 且 不 能 为 自动 化 工具 纠正 的 情况 。 在 银行 账 尸 间 


转 钱 就 是 个 经 典 例 子 。 下 面 是 另 一 个 简单 数据 库 : 





假设 扎 迪 要 求 从 她 的 支票 账户 转 266 美 元 到 她 的 存款 账户 。 就 和 前 面 的 例子 一 
样 ， 这 需要 更 新 两 行 ， 会 连续 用 到 两 次 单独 的 磁盘 操作 。 首 先 扎 巡 的 支票 余额 会 减 
少 到 68e 美 元 ， 其 次 她 的 存款 余额 会 增加 到 58@e 美 元 。 而 如 果 我 们 在 这 两 次 操作 间 遭 
遇 朋 省 ， 数 据 库 看 起 来 会 这 样 : 





换 句 话说 ， 这 对 扰 迪 来 说 完全 是 一 场 灾难 : 在 月 省 前 ， 扎 迪 的 两 个 账户 一 共有 
1186 美 元 ， 但 现在 她 只 有 986 美 元 了 。 她 从 未 取 过 钱 ， 但 266 美 元 束 这 么 完全 消失 
了 ! 而 且 还 没有 办 法 侦 测 到 这 一 情况 ， 因 为 数据 库 在 骨 溃 后 完全 自 相 一 致 。 人 在 这 
里 ， 我 们 遇 到 了 一 种 更 为 细微 的 不 一 致 性 : 新 数据 库 与 其 朋 省 前 的 状态 不 一 致 。 


这 点 很 重要 ， 也 值得 更 细致 地 进行 研究 。 人 在 第 一 个 不 一 致 性 的 例子 里 ， 我 们 最 


终 得 到 的 数据 库 自 证 为 不 一 致 : A 和 B 成 为 朋友 ， 但 B 却 没有 和 A 成 为 朋友 。 这 种 不 一 
致 性 只 需 通过 检查 数据 库 就 能 侦 测 到 ( 尽管 侦 测 过 程 可 能 会 非常 耗 时 ， 如 果 数 据 库 
包含 数 百 万 乃 或 数 十 亿 条 记录 的 话 ) 。 在 第 二 个 不 一 致 性 的 例子 里 ， 如 果 把 数据 库 
所 处 的 状态 当 作 某 个 时 刻 的 截图 ， 那 么 这 一 状态 完全 合理 。 没 有 规则 规定 这 些 账户 
的 余额 必须 是 多 少 ， 或 规定 余额 之 间 存 在 任何 关系 。 不 过 ， 如 果 我 们 按时 间 顺 序 检 
查 数 据 库 状态 ， 就 能 观察 到 不 一 致 行为 。 有 三 个 事实 和 这 一 情况 有 关 : ( 1 ) 在 开始 
转账 前 ， 扎 迪 有 1 1686 美元 ; ( 2 ) 在 崩 演 后 ,她 有 966 美 元 ; ( 3 ) 在 干扰 期 间 ， 她 
并 未 取 钱 。 这 三 个 事实 放 在 一 起 就 显得 不 一 致 ， 但 不 一 致 性 不 能 通过 在 特定 时 刻 检 
查 数据 库 侦 测 到 。 


为 避免 这 两 种 不 一 致 性 ， 数 据 库 研究 人 员 们 提出 了 “事务 ”的 概念 一 一 如 果 想 
让 数据 库 最 后 保持 一 致 性 ， 就 必须 在 数据 库 上 完成 一 系列 更 改 。 如 果 一 次 事务 中 只 
执行 了 一 些 更 改 ， 那 么 数据 库 最 后 就 可 能 不 一 致 。 这 一 想法 很 简单 ， 但 极其 有 效 。 
数据 库 程 序 员 可 以 发 出 如 “begin transaction” ( 开始 事务 ) 这 样 的 指令 ， 然 后 
对 数据 库 做 出 大 量 互相 依赖 的 更 改 ， 并 以 “end transaction” ( 终止 事务 ) 指令 
完成 。 数 据 库 能 保证 程序 员 的 更 改 都 会 完成 ， 即 便 运 行 数据 库 的 计算 机 在 事务 中 途 
朋 溃 并 重 局 。 


为 确保 绝对 正确 ， 我 们 还 应 该 意识 到 另 一 种 可 能 性 的 存在 : 在 月 演 并 重启 后 ， 
数据 库 也 可 能 返回 事务 开始 前 的 状态 。 但 如 果 出 现 了 这 种 情况 ， 程 序 员 会 收 到 一 条 
事务 失败 ， 必 须 重新 提交 的 通知 ， 以 防 造 成 任何 损害 。 我 们 稍 后 将 更 细致 地 讨论 这 
种 可 能 性 ， 在 天 于 “ 回 滚 ”事务 ( rolling back transaction ) 部 分 讲 到 。 至 于 
现在 ， 关 键 在 于 不 管事 务 是 否 完成 还 是 回 滚 ， 数 据 库 仍然 保持 一 致 性 。 


就 目前 的 描述 来 看 ， 我 们 似乎 没有 必要 痢 迷 于 骨 溃 的 可 能 性 。 毕 竟 ， 有 崩溃 人 在 运 


行 现代 应 用 程序 的 现代 操作 系统 上 极 少 友 生 。 对 这 一 问题 有 了 两 种 回答 。 首 先 ， 这 里 
所 襄 的 “ 朋 溃 ”相当 宽泛 : 包括 任何 可 能 导致 计算 机 停止 运作 进而 损失 数据 的 事 
件 。 可 能 的 事件 包括 断 电 、 硬 盘 出 错 、 其 他 硬件 出 错 以 及 操作 系统 或 应 用 程序 中 的 
漏洞 。 其 次 ， 即 便 这 些 泛 指 的 崩 演 极 少 发 生 ， 一 些 数据 库 也 不 能 承受 月 省 的 风险 : 
银行 、 保 险 公司 和 其 他 数据 代表 实际 金钱 的 组 织 ， 这 些 组 织 不 能 承受 任何 情况 下 记 
录 中 出 现 不 一 致 性 的 风险 。 


上 面 描 述 的 解决 方案 的 简洁 性 ( 开始 一 笔 事务 ， 执 行 必 要 的 操作 ， 然 后 终止 事 
务 ) 听 起 来 也 许 太 过 美好 ， 不 能 成 真 。 事 实 上 ， 下 一 部 分 搞 述 的 “ 待 办 事项 列 
表 ” 把 戏 束 相对 简单 ， 它 也 能 完成 处 理事 务 。 


待 办 事项 列表 把 戏 


并 不 是 所 有 人 都 井井有条 。 但 不 管 我 们 是 否 井 井 有 条 ， 我 们 都 见 过 非常 有 条 理 
的 人 使 用 的 强力 武器 之 一 : 待 办 事项 列表 。 也 许 你 并 不 喜欢 制作 列表 ， 但 很 难 质疑 
其 有 用 性 。 如 果 你 在 一 天 中 有 18 项 任务 要 完成 ， 把 它们 写 下 来 一 一 最 好 按 完成 效率 
排序 一 一 束 是 个 非常 好 的 开端 。 当 你 在 工作 日 中 间 时 刻 分 心 ( 是 否 该 说 “月 
演 ”? ) 时 ,一 张 待 办 事项 列表 会 尤其 有 用 。 如 果 你 不 知 为 何 筷 记 了 剩 下 的 任务 ， 
扫 一 眼 待 办 事项 列表 融 能 让 你 记 起 。 





数据 库 事务 要 使 用 一 种 特殊 的 待 办 事项 列表 来 完成 。 这 也 是 我 们 称 之 为 “ 待 办 
事项 列表 ”把 戏 的 原因 ， 尽 管 计算 机 科学 家 用 “ 预 写 日 志 记 录 ” 这 一 术语 称呼 它 。 
待 办 事项 列表 的 基本 思想 是 ， 维 护 一 个 数据 库 计 划 采 取 的 动作 日 志 。 日 志 存 储 在 硬 
盘 或 其 他 一 些 永久 性 存储 介质 中 ， 这 样 ， 日 志 中 的 信息 束 能 幸免 于 月 江 和 重启 。 在 
一 项 事务 的 任何 动作 得 到 执行 前 ， 它 们 都 被 记录 在 日 志 中 ， 然 后 再 保存 到 磁盘 里 。 


如 果 事 务 成 功 完 成 ， 我 们 残 能 删除 日 志 中 的 竺 办 事项 列表 ， 进 而 节省 一 些 空间 。 如 
此 ， 上 面 描述 的 扎 迪 转账 事务 将 分 两 步 进行 。 首 先 ， 下 图 左 侧 的 数据 库 表 不 动 ， 我 
们 在 日 志 中 写 下 本 次 事务 的 竺 办 事项 列表 : 


| 


1. 开始 转账 事务 
2. 将 扎 迪 的 支票 账户 余额 从 888 美 元 变 为 666 美 元 
3 .将 扎 迪 的 储蓄 账户 余额 从 366 美 元 变 为 566 美 元 


4.， 终止 转账 事务 


在 确保 日 志 项 保存 到 了 某 种 永久 性 存储 介质 ( 如 磁盘 ) 上 后 ， 我 们 对 表 进 行 计 
划 好 的 变更 : 








2. 将 扎 迪 的 支票 账户 余额 从 886 美 元 变 为 666 美 元 


3 .将 扎 迪 的 储蓄 账户 余额 从 366 美 元 变 为 566 美 元 


4.， 终止 转账 事务 


假设 变更 已 保存 到 磁盘 ， 日 志 项 束 能 被 删除 了 。 





但 这 个 例子 很 容易 。 假 如 计算 机 在 事务 中 途 意 外 地 月 汗 了 呢 ? 和 前 面 一 样 ， 让 
我 们 假设 衣 江 发 生 在 扎 迪 的 支票 账户 被 扣除 款项 之 后 ， 储 蓄 账 尸 增加 球 项 之 前 。 计 
算 机 重启 ， 数 据 库 重启 后 在 硬盘 中 发 现 如 下 信息 : 





1. 开始 转账 事务 


2. 将 扎 迪 的 支票 账户 余额 从 886 美 元 变 为 666 美 元 





3 .将 扎 迪 的 储蓄 账户 余额 从 366 美 元 变 为 566 美 元 


4.， 终止 转账 事务 





大 大 小 小 的 原子 性 


理解 事务 还 有 另外 一 种 途径 : 从 数据 库 用 户 的 观点 来 看 ， 每 一 笔 事务 都 是 原子 
态 (atomic ) 。 尽 管 物 理学 家 们 许多 年 前 就 知道 了 如 何 拆散 原子 ，“atomic” 的 
原意 来 自 希 腊 ， 意 味 着 “不 可 分 割 ”。 当 计算 机 科学 家 说 “原子 态 ” 时 ， 他 们 指 的 
是 原意 。 因 此 ， 一 笔 原 始 态 的 事务 不 能 被 分 成 更 小 的 操作 : 要 么 整 笔 事务 成 功 地 完 
成 ， 要 么 数据 库 处 于 其 原始 状态 ， 就 像 事 务 从 未 开始 一 般 。 


待 办 事项 列表 把 戏 给 了 我 们 原子 态 事 务 ， 反 过 来 又 保证 了 一 致 性 。 这 是 我 们 典 
型 例子 一 一 一 个 针对 在 线 银行 的 高 效 、 完 全 可 靠 的 数据 库 一 一 中 的 一 个 关键 要 素 。 
不 过 ， 我 们 还 未 达到 那 一 步 。 一 致 性 并 不 提供 足够 的 高 效 性 或 可 靠 性 。 当 和 我 们 很 
快 整 会 谈 到 的 锁定 技术 ( locking ”technique ) 结合 时 ， 待 办 事项 询 表 把 戏 在 数 干 
名 消费 者 同时 连接 数据 库 时 都 能 保持 一 致 性 。 这 的 确 会 提高 效率 ， 因 为 许多 消费 者 
能 同时 得 到 服务 。 而 且 待 办 事项 列表 把 戏 还 提供 了 一 种 衡量 可 靠 性 的 好 方法 ， 因 为 
它 能 阻止 不 一 致 性 。 特 别 是 ， 待 办 事项 列表 把 戏 排除 了 数据 损坏 ， 但 并 未 消除 数据 
丢失 。 下 一 个 数据 库 把 戏 一 一 预备 提交 把 戏 一 一 将 为 朝向 阻止 任何 数据 丢失 的 目标 
做 出 巨大 进步 。 


用 于 复制 数据 库 的 预备 提交 把 戏 


我 们 游览 精巧 数据 库 技 术 的 旅程 将 继续 ， 接 下 来 我 们 将 遇 到 名 为 “预备 提交 把 
戏 ” 的 算法 。 要 了 解 这 一 把 戏 的 动机 ， 我 们 需要 理解 两 个 与 数据 库 有 关 的 事实 : 首 
先 ， 它 们 会 被 复制 ， 也 就 是 说 同一 数据 库 的 多 份 拷 贝 被 存储 在 不 同 地 点 ; 其 次 , 有 
时 候 数 据 库 事务 必须 被 取消 ， 这 被 称 为 “ 回 滚 ” 或 “放弃 ”一 次 事务 。 在 转 入 预备 
是 交 把 戏 之 前 ， 我 们 将 和信 短 地 了 解 这 两 个 概念 。 


复制 数据 库 
通过 完成 或 回 滚 衣 省 前 正在 进行 的 事务 ， 待 办 事项 列表 把 戏 允 许 数 据 库 从 特定 


种 类 的 朋 省 中 恢复 。 但 前 提 是 假设 所 有 在 裔 省 前 保存 的 数据 都 还 在 。 假 如 计算 机 硬 
盘 永 久 损坏 ， 其 中 部 分 或 所 有 数据 都 丢失 了 呢 ? 这 只 是 计算 机 永久 丢失 数据 的 途径 
之 一 。 其 他 原因 包括 软件 漏洞 ( 数据 库 程 序 本 身 或 操作 系统 漏洞 ) 和 硬件 出 错 。 这 
些 问题 都 能 导致 计算 机 覆盖 你 认为 安全 地 存储 在 硬盘 上 的 数据 ， 抹 掉 并 用 垃圾 代 
蔡 。 很 明显 ， 竺 办 事项 列表 把 戏 在 出 现 这 种 情况 时 不 能 帮助 我 们 。 


然而 ， 在 一 些 情况 中 根本 不 能 出 现 数据 丢失 。 如 果 银 行 丢 失 了 你 的 账户 信息 ， 
你 会 极度 郁闷， 银行 可 能 会 面临 严重 的 法 律 和 财务 签 蜀 。 这 也 适用 于 证 券 区 易 公 
司 ， 假 如 它 在 执行 你 下 的 订单 时 丢失 了 殊 易 细节 。 的 确 ， 任 何 有 可 观 网 络 销售 额 的 
公司 ( 吻 贝 和 亚马逊 融 是 最 大 的 例子 ) 都 承担 不 起 损失 或 损坏 任何 消费 者 信息 的 后 
果 。 但 在 有 成 干 上 万 台 计 算 机 的 数据 中 心里 ， 每 天 都 有 许多 组 件 ( 特别 是 硬盘 ) 出 
首 。 这 些 组 件 上 的 数据 每 天 都 丢失 。 银 行 如 何 能 在 面临 这 种 数据 丢失 的 惨状 下 保持 
你 的 数据 安全 呢 ? 


显然 同时 也 广泛 使 用 的 解决 方案 是 ， 保 有 两 份 及 以 上 的 数据 库 拷贝 。 每 份 数 据 
库 拷贝 都 被 称 为 复制 品 ( replica ) ， 所 有 拷贝 的 集合 被 称 为 复制 数据 库 
( replicated database ) 。 通 剃 ， 复 制品 在 地 理 上 分 开 ( 也 许 位 于 相隔 数 百 英里 
的 数据 中 心里 ) ， 因 此 即便 其 中 一 份 复制 品 被 一 场 目 然 灾难 抹 挥 ， 另 一 份 复制 品 也 
还 在 。 


我 曾经 听 到 一 名 计算 机 企业 高 管 这 么 描述 在 2681 年 9 月 11 日 恐怖 分 子 袭 击 纽约 
世贸 中 心 双 子 塔 后 该 公司 客户 的 经 历 。 那 家 计算 机 企业 有 五 个 主要 客户 在 双子 塔 
中 ， 所 有 客户 都 运行 着 地 理 上 分 开 的 复制 数据 库 。 其 中 四 位 客户 能 依靠 剩 下 的 数据 
库 拷贝 基本 不 受 干 扰 地 继续 开展 业务 。 不 笠 的 是 ， 第 五 位 客户 在 两 座 双 子 塔 中 都 有 
一 份 复制 品 ， 但 这 两 份 都 丢失 了 ! 这 位 客户 只 能 在 从 站 外 档案 备份 中 恢复 数据 库 
后 ， 才 得 以 重新 开展 业务 。 


注意 ， 复制 数据 库 和 和 “备份” 一些 数据 的 常见 概念 有 很 大 不 同 。 备 份 是 某 个 特 
定时 刻 对 一 些 数据 的 快照 一 对 于 手动 备份 ， 快 照 在 你 运行 备份 程序 时 进行 ， 而 自 
动 备份 通常 会 在 每 周 或 每 天 的 某 个 特定 时 刻 对 系统 进行 快照 ， 比 如 每 天 早晨 2 点 钟 。 
换言之 ， 一 个 备份 是 一 些 文 件 、 一 个 数据 库 或 其 他 任何 你 需要 额外 拷贝 的 东西 的 完 
全 拷贝 。 


不 过 ， 根据 定义 ， 备 份 并 不 一 定 最 新 : 如 果 在 一 次 备份 之 后 做 出 一 些 变 更 ， 这 
些 变 更 不 会 被 保存 在 备份 中 。 相 反 ， 复 制 数据 库 随 时 保持 数据 库 的 所 有 拷贝 同步 。 
每 次 数据 库 中 任 一 项 哪怕 出 现 最 细微 的 变更 ， 所 有 复制 品 都 必须 立即 做 出 变更 。 


很 明显 ， 复 制 是 抵御 数据 丢失 的 绝 佳 方法 。 但 复制 也 仔 企 危险 : 它 引 入 了 另 一 
种 可 能 的 不 一 致 。 如 果 一 个 复制 品 最 后 的 数据 和 另 一 个 复制 品 不 同 ， 这 时 我 们 该 号 
么 办 ? 这 样 的 复制 品 役 此 不 一 致 ， 很 难 或 不 可 能 判定 哪个 复制 品 中 是 正确 的 数据 。 


在 研究 了 如 何 回 深 事 务 后 ， 我 们 将 再 返回 讨论 这 一 问题 。 


回 滚 事务 


冒 着 重复 的 风险 ， 让 我 们 尝试 回忆 一 下 事务 究竟 是 什么 : 事务 是 对 数据 库 的 一 
系列 变更 ， 这 些 变更 必须 全 部 执行 以 保证 数据 库 保持 一 致 。 在 之 前 对 事务 的 讨论 
中 ， 我 们 主要 天 注 事务 会 完成 ， 即 便 数 据 库 在 事务 进行 途中 朋 溃 。 


但 结果 证 明 ， 有 时 候 出 于 一 些 原 因 不 可 能 完成 一 项 事务 。 比 如 ， 也 许 事务 涉 
向 数据 库 中 添加 大 量 数据 ， 而 计算 机 在 事务 中 途 用 完了 磁盘 空间 。 这 一 情况 非常 罕 
见 ， 但 却 很 重要 。 


另 一 个 更 常见 的 未 能 完成 事务 的 原因 和 另 一 个 名 为 锁定 ( locking ) 的 数据 库 
概念 有 关 。 在 一 个 繁忙 的 数据 库 中 ， 通 常会 同时 执行 多 项 事务 。 ( 想象 一 下 ， 假 如 
银行 每 次 只 允许 一 名 用 户 转账 ， 这 时 会 友 生 什么 情况 一 一 这 种 在 线 银 行 系统 的 效能 
会 让 人 无 比 震惊 。 ) 在 一 次 事务 进行 中 ， 数 据 库 的 一 些 部 分 会 冻结 ， 这 点 很 重要 。 
比如 ， 如 果 事 务 A 向 记录 中 上 传 一 个 罗 西 娜 和 静 宜 成 为 朋友 的 项 ， 而 同时 事务 B 从 数 
据 库 中 删除 了 静 宜 ， 这 会 造成 灾难 性 的 后 果 。 因 此 ， 事 务 A 将 “锁定 ”包含 静 宜 信息 
的 那 部 分 数据 库 。 这 意味 着 那些 数据 被 冻结 了 ， 其 他 事务 不 能 改变 它 。 在 大 多 数 数 
据 库 中 ， 事 务 能 锁定 单行 或 单列 ， 或 整个 表 。 
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死 锁 ( deadlock ) : 当 两 次 事务 A 和 8B 同时 尝试 锁定 同一 行 一 一 但 方向 相反 一 一 时 ， 它 们 就 会 死 锁 ， 都 不 能 进 


行 。 


很 明显 ， 一 次 只 能 有 一 项 事务 锁定 数据 库 的 某 个 部 分 。 一 旦 该 项 事务 成 功 完 


成 ， 残 会 “解锁 ”之 前 航 它 锁定 的 所 有 数据 。 之 后 ， 其 他 事务 残 能 更 改 之 前 铸 冻 结 
的 数据 。 


乍 一 看 ， 这 似乎 是 一 个 绝 佳 的 解决 方案 ， 但 这 会 导致 一 个 非 芝 糟糕 的 状况 ， 计 
算 机 科学 家 称 之 为 死 锁 ， 正 如 上 图 所 示 。 让 我 们 假设 两 项 事务 A 和 B 同 时 运行 。 正 如 
上 图 顶部 所 示 ， 最 初 数 据 库 中 没有 行 被 锁 住 。 之 后 ， 正 如 上 图 中 部 所 示 ，A 锁 住 了 包 
含 玛 丽 信 息 的 那 一 行 ，B 锁 住 了 包含 皮 德 罗 信息 的 那 一 行 。 过 后 不 久 ，A 友 现 需 要 锁 
住 皮 德 罗 所 在 的 行 ，B 友 现 需 要 锁 住 玛丽 所 在 的 行 一 一 这 一 情形 如 上 图 底部 所 示 。 注 
意 ，A 现 在 需要 锁 住 皮 德 罗 所 在 的 行 ， 但 一 次 只 能 有 一 项 事务 锁 住 任意 行 ， 但 B 已 经 
锁 住 了 皮 德 罗 所 在 的 行 ! 因此 A 需 要 等 到 B 结 束 才 能 锁定 。 但 B 只 有 在 锁定 玛丽 所 在 的 
行 时 才能 结束 ， 而 玛丽 所 在 的 行 目 前 又 由 A 锁定 。 因 此 B 需 要 等 到 A 结束 才能 锁定 。A 
和 B 互 为 死 锁 ， 因 为 每 项 事务 都 必须 等 待 另 一 项 事务 才能 进行 。 它 们 会 永远 僵持 下 


去 ， 这 些 事务 永远 不 会 完成 。 


计算 机 科学 家 已 经 非常 细致 地 研究 了 死 锁 ， 许 多 数据 库 都 会 定期 运行 侦 测 死 锁 
的 特殊 程序 。 当 上 友 现 一 个 死 锁 时 ， 其 中 一 项 死 锁 的 事务 会 取消 ， 以 便 让 另 一 项 事务 
进行 。 但 请 注意 ， 殊 和 在 事务 进行 途中 耗 尽 磁盘 空间 时 所 做 的 一 样 ， 这 要 求 具备 撤 
销 或 “ 回 滚 ”已 经 部 分 完成 的 事务 的 能 力 。 现 在 我 们 全 少 知道 了 两 种 事务 需要 回 滚 
的 原因 。 还 有 许多 其 他 原因 ， 但 我 们 在 此 无 须 深 入 。 根 本 点 在 于 ， 事 务 经 常 因 为 不 
可 预料 的 原因 而 不 能 完成 。 


回 滚 能 通过 对 竺 办 事项 列表 把 戏 稍 作 变更 来 实现 : 预 写 日 志 必 须 包 含 足够 的 额 
外 信息 ， 才 能 在 必要 时 撤销 每 次 操作 。 ( 这 与 之 前 的 摘 述 相 矛 盾 ， 我 们 在 前 面 强 调 
每 一 个 日 志 项 要 包含 足够 多 信息 ， 以 便 在 崩溃 后 重新 执行 操作 。 ) 这 在 实践 中 很 容 
易 达 成 。 事 实 上 ， 在 我 们 审视 的 简单 例子 中 ， 撤 销 信息 和 重新 执行 的 信息 都 一 样 。 


像 “ 将 扎 迪 的 支票 账户 余额 从 866 美 元 变 为 669 美 元 ”这 样 的 项 能 轻易 “撤销 ”一 一 
只 需 将 六 迪 的 支票 账户 余额 从 696 美 元 变 为 800 美 元 。 总 之 : 如 果 一 项 事务 需要 回 
滚 ， 数据库 程 序 只 需 通 过 预 写 日 志 ( 比如 待 办 事项 列表 ) 逆向 操作 ， 逆 转 事务 中 的 
每 项 操作 。 


预备 提交 把 戏 


现在 ， 让 我 们 思考 复制 数据 库 中 国 滚 事 务 带 来 的 问题 。 这 里 的 问题 是 : 其 中 一 
份 复制 品 可 能 会 遇 到 了 要 求 回 滚 的 问题 ， 而 其 他 复制 品 则 没有 这 样 的 问题 。 比 如 ， 
假设 其 中 一 份 复制 品 耗 尽 了 磁盘 空间 ， 而 其 他 复制 品 仍 有 空间 剩余 。 


一 个 简单 的 类 比 在 这 里 会 很 有 帮助 。 假 设 你 和 三 个 朋友 想 一 起 去 看 一 部 最 近 上 
映 的 电影 。 为 了 让 例子 更 有 趣 ， 让 我 们 把 故事 背景 设 在 26 世 纪 86 年 代 ， 那 时 还 没有 
电子 邮件 ， 因 此 电影 之 行将 通过 电话 组 织 。 你 会 怎么 组 织 ? 下 面 列 出 了 一 种 可 能 的 
方法 : 确定 一 个 放映 电影 的 时 间 ， 这 个 时 间 要 适合 你 ， 丈 你 所 知 这 个 时 间 极 有 可 能 
也 适合 你 朋友 。 假 设 你 选择 了 周二 下 午 8 点 。 下 一 步 融 是 打 电 话 给 其 中 一 位 朋友 ， 询 
问 他 或 她 在 周二 下 午 8 点 是 否 有 空 。 如 果 有 空 ， 你 会 说 “ 太 好 了 ， 用 笔记 下 来 ， 我 等 
下 再 打 回 来 确认 ”。 然 后 你 再 打 电 话 给 下 一 位 朋友 ， 做 相同 的 事 。 最 后 ， 你 打 电 话 
给 第 三 位 以 及 最 后 一 位 朋友 ， 提 出 相同 的 间 题 。 如 果 所 有 人 都 在 周二 晚上 8 点 有 空 ， 
你 残 能 做 出 最 终 决定 ， 确 认 这 一 事件 ， 并 打 电 话 给 朋友 ， 让 他 们 知晓 。 


这 是 简单 的 情形 。 假 如 一 位 朋友 在 周二 晚上 8 点 没 空 呢 ? 那样 的 话 ， 你 需要 “ 回 
滚 ”已 经 做 了 的 所 有 工作 ， 重 新 开始 。 在 现实 中 ， 你 可 能 会 打 电 话 给 每 个 朋友 ， 并 
立即 给 出 一 个 新 时 间 ， 但 为 了 让 事情 尽 可 能 简单 ， 假 设 你 打 电 话 给 每 位 朋友 并 
说 “不 好 意思 ， 周二 晚上 8 点 个 合适， 在 你 的 日 程 上 删 掉 它 把 ， 我 会 很 快 打 电 话 告诉 


你 新 时 间 ”。 一 旦 做 完 这 件 事情 ， 你 就 能 重新 开始 整个 流程 。 


注意 ， 在 你 安排 电影 出 行 的 策略 中 有 两 个 截然 不 同 的 阶段 。 在 第 一 阶段 ,你 提 
出 了 日 期 和 和 时间， 但 并 非 百分之百 地 确定 。 一 旦 你 上 友 现 提议 适用 所 有 人 ， 你 才能 
分 之 百 地 确定 日 期 和 和 时间， 但 其 他 人 不 知道 。 因 此 ， 你 在 第 二 阶段 给 折 有 朋友 打 电 
话 回 去 确认 。 相 反 ， 如 果 一 个 或 更 多 朋友 不 能 成 行 ， 第 二 阶段 就 包括 给 所 有 人 打 电 
话 取 消 。 计 算 机 科学 家 们 将 之 称 为 两 阶段 提交 协议 ; 我 们 称 之 为 “预备 提交 把 
戏 ”。 第 一 阶段 被 称 为 “预备 ”阶段 。 第 二 阶段 要 么 是 “提交 ”阶段 ,要么 是 “ 撤 
销 ” 阶 段 ,取决 于 最 初 提议 是 否 被 所 有 人 接受 。 


有 趣 的 是 ， 这 一 类 比 中 有 个 数据 库 锁 定 的 想法 。 尽 管 我 们 并 未 详尽 讨论 它 ， 你 
所 有 的 朋友 在 写 下 电影 出 行 时 都 做 了 一 个 不 详尽 的 承诺 : 他 们 承诺 不 会 在 周二 晚 8 点 
安排 其 他 事 。 直 到 他 们 收 到 确认 或 取消 的 回信 为 止 ， 日 程 表 上 的 那个 时 间 段 都 
是 “锁定 ”的 ， 不 能 被 其 他 事务 “更 改 ”。 比 如 ， 如 果 其 他 人 打 电 话 给 你 朋友 ， 时 
间 恰 好 是 第 一 通电 话 和 第 二 通电 话 乙 间 ， 提 议 在 周二 晚 8 点 观看 一 场 篮球 赛 呢 ? 你 朋 
友 应 该 会 说 ，“ 对 不 起 ， 但 我 可 能 在 那个 时 间 有 另 一 场 约会 。 在 那 场 约 会 襄 定 前 ， 
我 不 能 给 你 确信 是否 去 看 这 场 篮 球赛 。 


现在 ， 让 我 们 审视 一 下 预备 提交 把 戏 如 何在 复制 数据 库 中 起 作用 。 下 图 展示 了 
这 一 想法 。 一 般 来 说 ， 其 中 一 个 复制 品 是 协同 事务 的 “主管 ” ( master ) 。 更 确切 
点 讲 ， 假 设 有 三 个 复制 品 A、B 和 C,，A 是 主管 。 假 设 数据 库 需要 执行 一 项 向 表 中 插入 
一 行 新 数据 的 事务 。 预 备 阶段 从 A 锁 定 表 开始 ， 接 下 来 A 将 新 数据 写 入 其 预 写 日 志 。 
同时 ，A 将 新 数据 发 给 B 和 C。B 和 (C 也 都 会 锁定 各 自 的 表 拷 贝 ， 并 在 日 志 中 写 入 新 数 
据 。 然 后 B 和 Cc 向 A 返回 报告 它们 是 否 成 功 地 做 了 这 一 事务 。 接 下 来 第 二 阶段 开始 ， 如 
果 A、B 或 中 任 一 项 事务 遇 到 了 一 个 问题 ( 比如 耗 尽 磁 盘 空 间或 未 能 锁定 表 ) ， 主 管 


A 就 知道 事务 必须 回 滚 ， 并 通知 所 有 复制 品 这 一 点 。 但 如 果 所 有 复制 品 都 在 预备 阶段 
报告 成 功 ， 人 A 会 同 每 份 复制 品 友 送 消息 确认 事务 ， 复 制品 接 下 来 会 完成 事务 ( 如 下 图 
所 未 ) 。 





预备 提交 把 戏 : 主管 复制 品 A 协 同 另外 两 个 复制 品 ( B 和 C ) 向 表 中 添加 一 些 新 数据 。 在 预备 阶段 ， 主 管 复制 品 检 
查 是 否 所 有 复制 品 都 能 完成 事务 。 一 旦 所 有 事情 都 妥当 ， 主 管 复制 品 会 让 所 有 复制 品 提交 数据 。 





融 回 滚 操作 的 预备 提交 把 戏 : 本 图 顶部 和 上 一 张 图 顶部 一 样 。 但 在 预备 阶段 ， 其 中 一 个 复制 品 出 错 。 结 果 ， 本 图 
底部 是 “撤销 ”阶段 ， 其 中 每 个 复制 品 都 必须 回 滚 事务 。 


到 目前 为 止 ， 我 们 的 处 理 方式 中 有 两 种 数据 库 把 戏 : 待 办 事项 列表 把 戏 和 预备 
提交 把 戏 。 它 们 对 我 们 有 什么 用 ? 通过 绪 合 这 两 个 把 戏 ， 银 行 一 一 以 及 其 他 任何 在 
线 实 体 一 一 都 能 使 用 原子 态 事 务 布置 复制 数据 库 。 而 这 能 在 同时 为 成 干 上 万 的 客户 
提供 高 效 服务 ， 且 基本 上 不 会 出 现 不 一 致 或 数据 丢失 。 不 过 ， 我 们 还 未 深入 数据 库 
的 核心 : 数据 如 何 构建 ， 查 询 如 何 得 到 回答 ? 最 后 一 个 数据 库 把 戏 会 为 这 些 问题 提 


供 一 些 答案 。 


天 系数 据 库 和 虚 表 把 戏 


在 前 面 的 所 有 例子 中 ， 数 据 库 都 只 由 一 张 表 组 成 。 但 现代 数据 表 技 术 的 真正 威 
力 在 有 多 张 表 的 数据 库 中 才 释放 出 来 。 天 系数 据 库 的 基本 思想 是 ， 每 张 表 都 存储 不 
同 的 信息 集 ， 但 不 同 表 中 的 个 体 通 常 都 以 某 种 方式 相连 。 因 此 ， 一 个 公司 的 数据 库 
也 许 是 由 不 同 的 表 组 成 ， 这 些 表 包 括 客户 信息、 供应 商 信息 和 产品 信息 。 但 客户 表 
可 能 会 提 及 产品 表 的 东西 ， 因 为 客户 会 订购 产品 。 也 许 产 品 表 会 提 及 供应 商 表 中 的 
东西 ， 因 为 产品 由 供应 商 的 商品 制造 。 


让 我 们 来 看 一 个 真实 的 小 例子 : 由 大 学 存储 的 信息 详细 列 出 了 学 生 要 上 哪些 课 
程 。 为 便于 管理 ， 例子 中 只 会 有 几 位 学 生 和 几 门 课程 ， 但 希望 你 能 明日 ， 同 一 原理 
也 适用 于 大 得 多 的 数据 量 。 


首先 ， 让 我 们 看 看 数据 会 如 何 使 用 简单 的 一 张 表 方 式 进行 仓储 ， 我 们 在 本 章 前 
面部 分 一 直 使 用 这 一 方法 。 整 个 过 程 在 下 面 的 顶 图 中 显示 。 你 可 以 看 到 ， 数 据 库 中 
有 16 行 和 5 列 ; 衡量 这 个 数据 库 信 息 量 的 一 个 简单 方法 是 说 ， 数 据 库 中 有 16x5 = 56 
个 数据 项 。 花 几 秒 钟 更 细致 地 研究 下 面 的 表 。 有 什么 东西 让 你 对 信息 存储 的 方式 感 
到 恶心 吗 ? 比如 ， 你 能 看 到 任何 不 必要 的 数据 重复 吗 ? 你 能 想到 存储 相同 信息 更 有 


效 的 万 式 吗 ? 


你 可 能 已 经 意识 到 ， 有 关 每 门 课程 的 大 量 信息 都 复制 给 了 参加 该 门 课程 的 所 有 
学 生 。 比 如 ， 三 名 学 生 参 加 ARCH181 课 程 ， 而 关于 这 | 课程 的 细节 信息 ( 包括 课程 
名 、 讲 师 和 房间 号 ) 都 向 每 位 学 生 重 复 了 。 存 储 这 些 信息 更 高 效 的 方法 是 使 用 两 张 
表 : 一 张 表 存储 学 生 们 上 哪些 课 ， 另 一 张 表 存 储 与 每 门 课程 有 关 的 细节 。 这 种 双 表 
策略 在 下 面 的 底 图 中 显示 。 
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顶 图 : 学 生 课 程 的 单 表 数据 库 
底 图 : 用 两 张 表 更 高 效 地 存储 了 相同 数据 
我 们 马上 能 看 到 这 种 多 表 方 法 的 好 处 之 一 : 要 求 的 存储 筷 量 减少 了 。 新 方法 使 
用 了 一 个 16 行 2 列 的 表 ( 16x2 = 26 个 项 ) 和 一 个 3 行 4 列 的 表 ( 3x4 = 12 个 项 ) ， 
忆 共 是 32 个 项 。 相 反 ， 一 表 方 法 需要 56 个 项 才能 存储 相同 多 的 信息 。 


节省 是 如 何 实现 的 呢 ? 它 来 自 于 对 重复 信息 的 消除 : 和 重复 每 位 学 生 选 取 的 每 
门 课程 的 名 称 、 讲 师 和 房间 号 不 同 ， 这 些 信息 只 向 每 门 课 程 列 出 了 一 次 。 尽 管 我 们 
牺牲 了 一 些 东 西 来 实现 这 一 点 : 现在 课程 号 出 现在 两 个 地 方 ， 两 张 表 中 都 有 一 
个 “课程 号 ” 列 。 我 们 用 大 量 重 复 ( 课程 细节 ) 和 少量 重复 ( 课程 号 ) 进行 了 交 
换 。 忌 体 而 言 ， 这 是 笔 好 交易 。 这 个 小 例子 中 的 收获 并 不 大 ， 但 你 也 许 想 象 得 出 ， 
如 果 有 成 百 上 王 的 学 生 参 加 同一 门 浊 ， 通 过 这 一 方法 将 节省 巨大 的 仓储 空间 。 


多 表 方 法 还 有 另 一 个 巨大 优势 。 如 果 表 设计 无 误 ， 对 数据 库 的 变更 会 更 容易 。 
比如 ， 假 设 课 程 MATH314 的 房间 号 从 566 变 为 446。 在 一 表 方 法 中 ， 有 四 个 单独 的 行 


需要 更 新 。 而 且 ， 正 如 我 们 之 前 讨论 的 ， 这 四 次 更 新 需要 包含 在 一 次 事务 中 ， 以 确 
4 需要 i 





保 数据 库 保持 一 致 。 但 在 多 表 方 法 中 ， 只 需要 进行 一 次 更 改 一 一 更 新 课程 细节 表 中 
一 项 即 可 。 
键 


在 这 里 有 一 点 值得 指出 ， 这 个 简单 的 学 生 课 程 例子 使 用 两 个 表 来 代表 最 高 效 ， 
真实 的 数据 库 通 常会 和 许多 表 协 同 。 很 容易 想象 用 新 表 扩 展 学 生 课程 的 例子 。 比 
如 ， 可 能 有 一 张 包含 每 位 学 生 细 节 的 表 ， 如 学 生 号 、 电 话 号 以 及 家 庭 住 址 。 可 能 还 
有 一 张 齐 师表 ， 列 出 讲师 的 电子 邮箱 地 址 、 办 公 地 点 和 办 公 时 间 。 每 个 表 都 被 设计 
用 其 大 多 数列 存储 数据 ， 以 便 让 这 些 数 据 不 在 其 他 地 方 出 现 一 一 这 种 方法 的 思想 
是 ， 不管 何 时 要 求 某 个 特定 物体 的 细节， 我 们 都 能 在 相关 表 中 “查询 ”这 些 细节 。 


在 数据 库 术 语 中 ， 表 中 用 于 “查询 ”细节 的 列 被 称 为 “ 键 ”。 比 如 ， 想 象 一 下 
如 何 寻 找 路 易 言 的 历史 课 房 间 号 。 通 过 使 用 上 一 节 所 述 的 单 表 方法 ， 我 们 只 需 扫 摘 
表 中 的 行 ， 直 到 找到 路 易 吉 的 历史 课 ， 然 后 查询 房间 号 列 ， 得 到 结果 851。 但 在 多 表 
方法 中 ， 我 们 最 开始 扫描 第 一 个 表 ， 以 发 现 路 易 吉 的 历史 课 课 程 号 一 一 也 就 
“HIST256”。 然 后 我 们 将 “HIST256” 作 为 其 他 表 的 键 使 用 : 通过 寻找 包含 课程 
“HIST256” 的 行 ， 查 询 这 门 课程 的 细节 ， 然 后 在 该 行 中 寻找 房间 号 ( 即 851 ) 。 
一 过 程 在 下 图 中 显示 。 


un 并 


jxf 








课程 号 ”课程 名 讲师 ”房间 号 







学 生 名 课程 号 | 
0: : :9: 
HIST256 





用 键 查找 数据 : 为 找到 路 易 吉 历史 课 的 房间 号 ， 我 们 首先 要 找到 左 表 中 的 相关 课程 号 。 然 后 这 个 
值 “HIST256” 会 被 用 作 另 一 张 表 的 键 。 因 为 课程 号 栏 以 字母 表 顺 序 排序 ， 我 们 能 很 快 找 到 正确 的 行 ， 然 后 获取 
对 应 的 房间 号 ( 851 ) 。 


像 这 样 使 用 键 的 美妙 之 处 在 于 ， 数 据 库 能 以 超 高 效率 查询 键 。 这 和 人 在 字典 中 
查询 一 个 单词 类 似 。 想 想 你 会 如 何在 纸 质 词 典 中 得 找 “epistemology” ( 认识 论 ) 
这 个 单词 。 目 然 地 ， 你 不 会 从 第 一 页 开始 ， 扫 摘 每 个 项 以 查找 “epistemology”。 
相反 ， 你 很 快 束 能 通过 查看 页 首 来 缩小 学 围 ， 你 最 开始 会 大 块 翻 页 ， 然 后 会 慢 慢 放 


慢 翻 页 的 幅度 ， 逐 渐 靠 近 你 的 目标 。 数 据 库 使 用 同样 的 技术 查找 键 ， 但 它们 要 比 人 
高 效 得 多 。 这 是 因为 数据 库 能 提前 计算 出 需要 翻 多 少 “ 块 ”页 ， 并 能 记录 每 块 开始 
和 结束 的 页 首 。 计 算 机 科学 中 有 一 种 用 于 快 键 查找 的 预计 算 块 集合 被 称 为 B 树 ( B- 

tree ) 。B 树 是 另 一 种 支持 现代 数据 库 的 关键 精巧 思想 ， 但 不 幸 的 是 ， 对 B 树 进行 细 


致 讨论 会 离 题 太 远 。 


虚 表 把 戏 


我 们 准备 好 去 领会 多 表 数 据 库 背后 精巧 的 主要 思想 了 。 虚 表 的 基础 思想 很 简 
单 : 尽管 所 有 的 数据 库 信息 都 能 存储 在 一 个 固定 大 小 的 表 中 ， 数 据 库 能 在 需要 时 生 
成 新 的 临时 表 。 我 们 称 这 些 表 为 “ 虚 表 ”以 强调 它们 不 会 被 仓储 到 任何 地 方 的 事 
实 一 一 当 数 据 库 在 回答 对 数据 库 的 查询 并 且 需 要 虚 表 时 就 会 创建 它们 ， 并 立即 删除 


它们 。 


举 个 简单 例子 来 说 明 虚 表 把 戏 。 假 设 我 们 从 前 文 底 图 摘 述 的 数据 库 开 始 ， 一 名 
用 户 输入 一 个 查询 ， 询 问 所 有 上 科比 教授 课 的 学 生 名 字 。 数 据 库 处 理 这 一 查询 的 方 
法 有 许多 种 ; 我 们 会 审视 其 中 一 种 方法 。 第 一 步 是 创建 一 张 新 虚 表 ， 列 出 所 有 课程 
的 学 生 和 讲师 。 这 可 以 通过 合并 ( join ) 一 种 特殊 的 数据 库 操作 一 一 两 个 数据 
库 来 完成 。 合 并 的 基本 思想 是 将 一 个 表 中 的 每 一 行 和 另 一 张 表 对 应 行 结合 起 来 ， 对 
应 是 通过 同时 出 现在 两 张 表 中 的 键 栏 建立 起 来 的 。 比 如 ， 当 我 们 合并 第 前 文 底 图 两 
张 表 时 ， 会 使 用 “课程 号 ”作为 键 ， 结 果 融 是 一 张 如 前 文 项 图 一 样 的 虚 表 一 一 每 个 
学 生 都 和 第 二 张 表 中 相 天 课程 的 所 有 细节 相 结合 ， 人 们 可 以 使 用 “课程 号 ”作为 键 
至 找 这 些 细节 。 当 然 ， 原 始 查 询 和 学 生 们 及 讲师 有 天 ， 因 此 我 们 不 需要 其 他 栏 。 笠 
运 的 是 ， 数 据 库 包含 一 个 抛射 ( projection ) 操作 ， 能 让 我 们 抛弃 不 感 兴趣 的 栏 。 





因此 在 将 两 张 表 结 合 的 合并 操作 后 ， 会 有 抛射 操作 移 除 一 些 不 必要 的 栏 ， 最 终 数 据 
库 得 到 了 下 面 的 虚 表 : 





接 下 来 ， 数 据 库 会 使 用 另 一 种 名 为 选取 ( select ) 的 重要 操作 。 选 取 操 作 会 基 
于 一 些 标 准 ， 从 一 张 表 中 选取 一 些 行 ， 并 抛 工 其 余 的 行 ， 生 成 一 张 新 虚 表 。 在 这 个 
例子 中 ， 我 们 在 寻找 上 科比 教授 课 的 学 生 ， 因 此 我 们 要 进行 一 次 “选取 ”操作 ， 只 
选择 讲师 为 “科比 教授 ”的 行 ， 得 到 的 虚 表 如 下 : 


查询 快 完成 了 。 现 在 我 们 需要 的 是 另 一 次 抛 冉 操 作 ， 抛 人 茎 “讲师 ” 栏 , 余下 一 
张 回答 原始 查询 的 虚 表 : 





| #0 | 和 kg 
| “| | 





接 下 来 ， 数 据 库 会 使 用 另 一 种 名 为 选取 ( select ) 的 重要 操作 。 选 取 操 作 会 基 
于 一 些 标 准 ， 从 一 张 表 中 选取 一 些 行 ， 并 抛 工 其 余 的 行 ， 生 成 一 张 新 虚 表 。 在 这 个 
例子 中 ， 我 们 在 寻找 上 科比 教授 课 的 学 生 ， 因 此 我 们 要 进行 一 次 “选取 ”操作 ， 只 
选择 讲师 为 “科比 教授 ”的 行 ， 得 到 的 虚 表 如 下 : 





查询 快 完成 了 。 现 在 我 们 需要 的 是 另 一 次 抛 尉 操作 ， 抛弃 “讲师 ” 栏 , 余下 一 
张 回答 原始 查询 的 虚 表 : 





我 认为 值得 在 此 添加 一 个 略 显 技术 性 的 提示 。 如 果 你 恰巧 对 数据 库 查 询 语言 SQL 
很 熟悉 ， 你 也 许 会 觉得 上 面 对 “ 选 取 ” 操 作 的 定义 相当 奇怪 ， 因 为 SQL 中 的 “ 选 
取 ” 命 令 功 能 比 只 选取 一 些 行 大 得 多 。 这 一 术语 来 自 于 一 种 数据 库 操作 数学 理论 ， 
也 就 是 知名 的 关系 代数 ( relational algebra ) ,其 中 的 “选取 ” 仪 用 于 选取 行 。 
关系 代数 还 包含 “合并 ”和 “抛射 ”操作 ， 这 两 项 操作 在 寻找 科比 教授 学 生 的 查询 
中 用 到 过 。 


天 系数 据 库 


一 个 将 其 所 有 数据 都 存储 在 我 们 之 前 用 过 的 互联 表 中 的 数据 库 被 称 为 天 系数 据 
库 。 关 系数 据 库 由 IBM 研 究 员 埃 德 加 . 科 德 ( E.F. Codd ) 在 其 于 1976 年 发 表 的 极 具 
影响 力 的 论文 《大 型 共享 数据 库 数据 的 关系 模型 》 (A Relational Model of 
Data for Large Shared Data Banks ) 中 提出 。 和 科学 上 许多 伟大 思想 一 样 ， 回 
过 头 看 天 系数 据 库 似乎 很 简单 一 一 但 在 那 时 ， 它 们 代表 了 在 高 效 存 储 和 处 理 信 息 上 
的 巨大 飞跃 。 结 果 显 示 ， 只 需 几 种 操作 ( 如 我 们 之 前 见 过 的 天 系 代数 操作 “ 选 
取 ”、“ 合 并 ”以 及 “抛射 ” ) 就 足够 生成 虚 表 ， 回 应 几乎 所 有 对 关系 数据 库 的 查 
询 。 因 此 ， 关 系数 据 库 能 将 数据 存储 在 为 高 效 性 而 构建 的 表 中 ， 使 用 虚 表 把 戏 回应 
似乎 需要 在 不 同 表 中 数据 的 查询 。 


这 也 是 关系 数据 库 被 用 于 支持 大 多 数 电 子 商 务 活动 的 原因 。 当 你 网 上 购物 时 ， 
你 很 有 可 能 就 和 一 系列 天 系数 据 库 表 进行 了 互动 ， 这 些 表 存 储 了 与 产品 、 客 户 和 单 
次 购买 相关 的 信息 。 在 网 络 空间 中 ， 我 们 无 时 无 刻 不 被 天 系数 据 库 所 包围 ， 很 多 时 


候 甚 至 没有 意识 到 它们 的 存在 。 


数据 库 的 人 性 面 


对 于 一 般 的 旁观 者 而 言 ， 数据 库 也 许 是 本 书 中 最 不 令 人 激动 的 主题 。 要 为 数据 
存储 感到 激动 很 难 。 但 在 背后 ， 让 数据 库 奏 效 的 精巧 思想 却 是 另 一 回 事 。 建 立 在 能 
在 任何 操作 中 途 出 错 的 硬件 上 ， 数 据 库 给 予 我 们 期 望 在 线 银行 及 类 似 活动 能 拥有 的 
高 效 性 和 坚实 可 靠 性 。 待 办 事项 列表 把 戏 给 了 我 们 原子 态 事 务 ， 即 便 成 干 上 万 的 客 
户 同 时 和 一 个 数据 库 互 动 也 能 保持 一 致 性 。 这 种 并 皮 性 的 深厚 程度 ， 与 虚 表 把 戏 提 
供 的 快速 查询 响应 能 力 一 道 ， 让 大 型 数据 库 高 效 化 。 待 办 事项 列表 把 戏 还 保证 了 面 
临 出 错时 的 一 致 性 。 当 与 用 于 复制 数据 库 的 预备 提交 把 戏 结合 时 ， 我 们 就 获得 了 牢 
靠 的 一 致 性 以 及 数据 的 持久 性 。 


数据 库 对 不 可 靠 组 件 的 英勇 胜利 一 一 计算 机 科学 家 称 之 为 “容错 ” ( fault- 
是 许多 研究 人 员 在 过 去 几 十 年 间 的 成 果 。 但 其 中 最 重要 的 贡献 者 
是 吉姆 .格雷 ( Jim Gray ) 。 格 雷 是 位 超级 计算 机 科学 家 ， 撰 写 了 有 关 事 务 处 理 的 数 
据 。[ 这 本 书 名 为 《事务 处 理 : 概念 与 技术 》 ( Transaction 
Processing: Concepts and Techniques )， 该 书 于 1992 年 首次 出 
版 。] 令 人 遗憾 的 是 ， 他 的 职业 生涯 很 早 就 结束 了 : 2667 年 的 一 天 ， 他 驾驶 自己 的 
游艇 由 金门 大 桥 出 旧金山 湾 ， 进 行 一 次 计划 好 的 白昼 旅行 ， 准 备 前 往 | 旧金山 湾 附 近 
公海 中 的 一 些 岛屿 。 自 此 以 后 ， 格 雷 和 他 的 船 音信 全 无 。 这 个 悲剧 故事 中 有 一 处 温 
暧 人 心 的 转折 ， 格 雷 在 数据 库 社 区 的 许多 朋友 使 用 格雷 的 工具 尝试 拯救 格雷 : | 旧 金 
山 附 近海 域 最 新 得 到 的 卫星 照片 被 上 传 到 一 个 数据 库 中 ， 以 便 让 朋友 们 和 同事 们 搜 
寻 这 位 失踪 数据 库 先 锋 的 线索 。 不 幸 的 是 ， 这 次 搜寻 并 不 成 功 ， 计 算 机 科学 世界 形 
失 了 一 位 领军 人 物 。 





tolerance ) 


第 九 章 
数字 签名 


一 一 这 个 软件 究竟 由 谁 编写 


为 了 证 明 你 错 得 多 厉害 ， 你 的 假设 是 多 么 没有 根据 ， 我 把 证 书 摆 在 你 面前 .…. 看 看 它 ! 你 可 以 拿 在 手 里 看 ; 它 绝 
非 伪造 。 





一 一 查尔斯 -狄更斯 ，《 双 城 记 》 


在 本 书 的 所 有 思想 中 ， 最 矛盾 的 也 计 要 数 “ 数 字 签 名 ” ( digital 
signature ) 概念 了 。 从 字面 来 看 ,单词 数字 化 ( digital ) 数字 化 意味 着 其 “由 数 
字 字 符 捉 组 成 ”。 因 此 ， 根 据 定义 ， 任 何 数字 化 的 东西 都 能 被 拷贝 : 要 做 到 这 一 
凤 ， 只 要 每 次 拷贝 一 下 数字 束 行 。 如 果 你 能 读 取 数字 ， 束 能 拷贝 数 子 ! 另 一 方 
面 ，“ 签 名 ”的 全 部 意义 在 于 能 被 读 取 ， 但 不 能 被 除 作 者 外 的 任何 人 拷贝 ( 也 残 是 
伪造 ) 。 怎 么 才 有 可 能 创造 一 个 数字 化 的 ， 但 又 不 能 被 拷贝 的 签名 呢 ? 我 们 将 在 本 
章 为 这 一 有 趣 的 悖 论 友 现 解决 方案 。 


数字 等 名 真正 的 用 途 有 哪些 ? 


数字 签名 的 用 途 有 哪些 ? 问 这 个 问题 也 许 显 得 多 余 。 你 也 许 会 想 ， 我 们 能 在 纸 质 签 

名 用 到 的 地 方 使 用 数字 签名 : 签署 支票 或 其 他 法 律 文件 ， 如 出 租 一 间 公 高。 但 如 果 

你 思考 一 阵子 ， 你 会 意识 到 这 不 对 。 当 你 进行 在 线 支 付 时 ， 不 管 是 用 信用 卡 还 是 通 

过 在 线 银行 系统 ， 你 会 提供 任何 种 类 的 签名 吗 ? 没有。 基本 上 ， 在 线 信 用 卡 支 付 并 

不 要 求 签名 。 在 线 银行 系统 略 有 不 同 ， 因 为 它们 会 要 求 你 用 密码 登录 ， 以 帮助 验证 

你 的 身份 。 但 如 果 你 稍 后 于 在 线 银行 对 话 期 间 进 行 支付 ， 也 不 需要 你 提供 任何 种 类 
的 签名 。 


While files from the Internet can be useful, this file type can potentially harm 
your computer. Only run software from publishers YOU trust. What's the risk? 


The publisher could not be verified. Are you sure you want to run this 
software? 


Name: setup.exe 
Publisher: Unknown Publisher 


This file does not have a valid digital signature that verifies its publisher. You 
should only nn software from publishers you trust. How can 1 decide what 





计算 机 会 自动 检查 数字 签名 。 


顶 图 : 当 我 试图 下 载 并 运行 一 个 拥有 有 效 数 字 签 名 的 程序 时 ， 网 络 浏览 器 显示 的 消息 。 
底 图 : 当 数字 签名 失效 或 缺失 时 ， 网 络 浏览 器 显示 的 消息 。 


字 签 名 在 实际 生活 中 有 哪些 用 途 呢 ? 答案 可 能 和 你 一 开始 的 想法 相 
发 送 给 其 他 人 的 材料 不 同 ， 基 本 上 是 其 他 人 先 签 团 材 料 再 发 送 给 你 。 
你 很 有 可 能 并 未 意识 到 这 一 点 的 原因 是 ， 数 字 签 名 由 计算 机 自动 验证 。 比 如 ， 不管 
你 何 时 想 下载 并 运行 程序 ， 网 络 浏览 器 都 会 检查 程序 是 否 有 数字 等 名 以 及 数字 等 名 
是 否 有 效 。 然 后 浏览 器 再 显示 一 个 合适 的 警告 ， 如 上 图 所 示 。 


如 你 所 见 ， 这 里 有 两 种 可 能 性 。 如 果 软 件 拥 有 有 效 签名 ( 如 上 页 顶 图 ) ， 计 算 
机 能 完全 肯定 地 告诉 你 编写 该 软件 的 公司 名 。 当 然 ， 这 并 不 能 保证 软件 安全 ， 但 至 
少 你 能 基于 对 该 公司 的 信任 程度 做 出 充分 了 解 后 再 做 决定 。 反 之 ， 如 果 签 名 失效 或 
缺失 ( 如 上 页 底 图 ) ， 你 绝 不 会 得 到 软件 来 自 哪里 的 保证 。 即 便 你 认为 自己 下 载 的 
软件 来 自 一 个 信誉 良好 的 公司 ， 也 有 可 能 黑客 用 一 些 恶 意 软 件 蔡 换 了 真正 的 软件 。 
软件 也 有 可 能 由 业余 人 士 编写 ， 他 们 没有 时 间或 动力 去 创造 一 个 有 效 的 数字 签名 。 
在 这 些 情况 下 ， 是否 安装 取决 于 用 户 是 否 信 任 软 件 。 


尽管 软件 签名 是 数字 签名 最 明显 的 应 用 ， 但 这 绝 不 是 仅 有 的 一 种 应 用 。 事 实 

, 计算 机 接收 和 验证 数字 签名 的 频率 非 党 多， 因为 一 些 经 常 使 用 的 互联 网 协议 也 
使 用 数字 签名 ， 验 证 与 你 进行 交互 的 计算 机 的 身份 。 比 如 ， 网 络 地 址 俯 “https” 开 
头 的 安全 服务 器 在 建立 一 个 安全 对 话 前 ， 通 常会 向 你 的 计算 机 友 送 一 个 数字 签名 证 
书 。 数 字 签 名 还 应 用 于 验证 许多 软件 组 件 的 真实 性 ， 比 如 浏 抠 器 插件 。 你 在 浏览 网 
页 时 很 有 可 能 已 经 见 过 这 样 的 警告 消息 。 


你 也 可 能 遇 到 另外 一 种 网 络 签名 : 一 些 网 站 会 要 求 输入 名 字 ， 作 为 网 络 表格 的 
签名 。 比 如 ， 当 我 友 送 为 学 生 写 的 推荐 信 时 ， 有 了 时 我 必须 这 么 做 。 这 并 不 是 计算 机 


科学 家 所 指 的 数字 签名 ! 很 显然 ， 伪 造 这 种 输入 的 签名 毫 不 费力 ， 任 何 知道 你 名 字 
的 人 都 能 伪造 。 在 本 章 ， 我 们 将 学 习 如 何 创造 一 个 不 能 被 伪造 的 数字 签名 。 


纸 质 签名 


我 们 对 数字 签名 的 解释 会 一 步 步 实 现 ， 先 从 纸 质 签名 的 熟悉 场景 开始 ， 骨 慢 慢 
转向 精巧 的 数字 签名 。 下 面 正式 开始 ， 让 我 们 回 到 一 个 没有 计算 机 的 世界 。 在 那个 
世界 里 ， 唯 一 确认 文件 可 靠 的 万 式 束 是 纸 质 手 写 签名 。 注 意 ， 在 这 种 场景 下 ， 一 份 
已 经 签署 的 文件 不 能 单独 验证 。 比 如 ， 假 设 你 找到 的 一 张 纸 上 写 着 “我 承诺 向 弗 朗 
索 瓦 丝 文 付 166 美 元 。 签 名 ，Ravi” 如 下 图 所 示 。 你 如 何 才能 验证 拉 维 
( Ravi ) 真 的 签署 了 这 份 文 件 呢 ”答案 是 你 需要 一 些 受 信 签 名 库 ， 你 可 以 在 这 个 签 
名 库 中 核实 拉 维 签名 的 真实 性 。 在 现实 世界 中 ， 银 行 、 政 府 等 机 构 会 扮演 这 一 角色 
一 一 它们 的 确 会 保留 存储 有 客户 签名 的 文件 ， 这 些 文件 在 必要 时 可 进行 物理 核实 。 
在 我 们 的 假想 场景 中 ， 让 我 们 假设 有 一 个 名 为 “ 纸 质 签名 银行 ” ( paper 
signature bank ) 的 受信 机 构 保留 每 个 人 的 签名 文件 。 下 图 束 是 一 个 纸 质 签名 银行 
的 概要 图 例 。 








一 个 用 文件 存储 其 客户 身份 及 手写 签名 的 银行 。 
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一 份 带 有 一 个 手写 签名 的 纸 质 文件 。 


要 验证 拉 维 在 承诺 支付 弗 明 率 瓦 丝 的 文件 上 的 尝 名 ， 我 们 只 需 前 往 纸 质 敬 名 银 
行 ， 要 求 查 看 拉 维 的 签名 即 可 。 很 显然 ， 我 们 在 这 里 做 出 了 两 个 重要 假设 。 首 先 ， 
我 们 假设 能 信任 这 家 银行 。 理 论 上 ， 该 银行 的 员工 可 能 将 拉 维 的 签名 换 成 假冒 者 的 
签名 ， 但 我 们 在 这 里 要 忽略 这 种 可 能 性 。 其 次 ， 我 们 假设 假冒 者 不 可 能 伪造 拉 维 的 
签名 。 每 个 人 都 知道 ， 这 一 假设 销 得 离谱 : 熟练 的 造假 者 能 轻易 伪造 签名 ， 即便 是 
业余 人 士 ， 也 能 制作 合理 的 相似 签名 。 不 管 怎 样 ， 我 们 需要 签名 不 可 伪造 这 一 假设 
没有 它 ， 纸 质 签 名 束 会 写 无 用 处 。 我 们 将 在 后 面 知 道 ， 为 何 数字 签名 基本 上 不 
可 能 伪造 。 这 也 是 数字 签名 对 纸 质 签 名 的 一 大 优势 。 





用 挂 锁 签名 


我 们 迈 向 数字 签名 的 第 一 步 是 完全 抛弃 纸 质 签名 ， 采 用 一 种 依赖 挂 锁 、 钥 匙 和 
已 锁 箱 子 的 新 方法 验证 文件 。 新 机 制 的 每 位 参与 者 ( 在 这 个 例子 中 就 是 拉 维 
<Ravi>、 勇 <Takeshi> 和 弗 朗 索 瓦 丝 <Francoise> ) 都 有 大 量 挂 锁 供应 。 每 位 参与 
者 拥有 的 挂 锁 都 一 样 ， 因 此 拉 维 的 挂 锁 都 一 样 ， 这 点 很 天 键 。 另 外 ， 每 位 参与 者 的 
圭 锁 都 必须 是 独 有 的 : 其 他 人 不 能 制作 或 获得 拉 维 的 挂 锁 。 最 后 ， 本 章 所 有 挂 锁 都 
具有 一 个 相当 不 同 寻常 的 特性 : 它们 装备 有 生物 传感器 ， 以 确保 只 有 它们 的 所 有 者 
能 上 锁 。 如 果 弗 朗 索 瓦 丝 友 现 有 一 把 拉 维 的 挂 锁 没 锁 上 ， 她 不 能 用 拉 维 的 挂 锁 去 锁 
任何 东西 。 当 然 ， 拉 维 还 会 得 到 打开 自己 挂 锁 的 钥匙 。 因 为 拉 维 所 有 的 挂 锁 都 一 
样 ， 所 有 钥匙 也 都 一 样 。 到 目前 为 止 描述 的 场景 显示 在 下 页 图 中 。 我 们 将 这 一 最 初 
设置 称 为 “实体 挂 锁 把 戏 ” ( physical padlock trick ) 。 


现在 ， 让 我 们 和 之 前 一 样 假设 ， 拉 维 闪 弗 归 索 瓦 丝 166 美 元 ， 而 弗 明 率 瓦 丝 想 用 
一 种 可 验证 的 方法 记录 这 一 信息 。 换 言 之 ， 弗 衣 率 瓦 丝 想 要 和 上 图 一 样 的 文件 ， 却 


又 不 必 依赖 于 手写 笔迹 。 下 面 就 是 这 一 把 戏 的 运作 方式 。 拉 维 制作 一 份 文 件 ， 上 面 
显示 “ 拉 维 承诺 向 弗 明 率 瓦 丝 广 付 166 美 元 ”“， 但 并 不 用 在 上 面 答 名 。 拉 维 会 制作 一 
份 该 文件 的 拷贝 ， 并 将 文件 放 人 在 一 个 加 锁 的 箱子 内 ( 加 锁 的 箱子 非常 坚固 ， 能 用 挂 
钠 锁 上 ) 。 最 后 ， 拉 维 用 一 个 挂 锁 锁 上 箱子 ， 并 把 锁 上 的 箱子 给 弗 明 率 瓦 丝 。 完 整 
包 事 如 下 图 所 示 。 准确 地 说 ， 上 锁 的 箱子 束 是 文件 的 签名 。 注 意 ， 这 对 弗 明 索 瓦 丝 
或 一 些 受信 目击 者 来 说 是 个 好 主意 ， 能 观看 签名 的 创建 过 程 。 否 则 ， 拉 维 就 可 以 通 
过 在 箱 内 放 上 一 份 不 同 的 文件 来 作弊 。 ( 可 以 论证 的 是 ， 如 果 加 锁 的 箱子 透明 ， 这 
一 机 制 的 效果 会 更 好 。 毕 竟 ， 数 字 签 名 提供 可 靠 性 ， 而 非 隐秘 性 。 不 过 ， 透 明 锁 箱 
有 所 不 符 直 完 ， 因 此 我 们 不 会 追求 这 一 可 能 性 。 ) 





在 实物 挂 锁 把 戏 中 ， 每 位 参与 者 都 能 得 到 独 有 的 相同 挂 锁 和 钥匙 。 


也 许 你 已 经 知道 了 弗 朗 索 瓦 丝 验证 拉 维 文件 可 靠 性 的 方法 了 。 如 果 任何 人 一 一 
甚至 是 拉 维 目 己 一 一 试图 否认 这 份 文件 的 真实 性 ， 弗 朗 泰 瓦 丝 都 能 说 “好 ， 拉 维 ， 
请 借 我 一 把 你 的 钥匙 。 现 在 我 要 用 你 的 钥匙 来 打开 这 个 锁 箱 。” 在 拉 维 和 其 他 目击 
者 ( 甚至 有 可 能 是 法 院 法 官 ) 的 见证 下 ， 上 弗 朗 泰 瓦 丝 打 开 挂 锁 ， 展 示 锁 箱 里 的 内 
容 。 然 后 弗 朗 索 瓦 丝 继续 说 : “ 拉 维 ， 因 为 你 是 唯一 接触 能 用 这 把 钥匙 打开 的 锁 的 





人 ， 其 他 人 不 可 能 对 锁 箱 内 容 负责 。 因 此 ， 是 你 ， 也 只 有 你 能 写 这 张 欠 条 ， 并 把 它 
放 到 锁 箱 内 。 你 确实 从 我 196 美 元 ! 


尽管 这 一 开始 听 起 来 很 复杂 ， 但 这 一 认证 方法 既 实用 又 强大 。 然 而 ， 这 种 方法 
确实 有 些 缺 点 。 其 主要 问题 是 ， 它 要 求 拉 维 的 配合 : 在 弗 朗 索 瓦 丝 能 证 明 任 何事 情 
之 前 ， 她 必须 况 服 拉 维 简 她 钥匙 。 但 拉 维 可 以 拒绝 ， 或 者 更 糟糕 ， 假 妆 合 作 却 借 给 
弗 明 率 瓦 丝 一 把 不 同 的 钥匙 把 打 不 开 拉 维 锁 的 钥匙 。 然 后 ， 当 弗 朗 索 瓦 丝 打 
不 开锁 箱 时 ， 拉 维 残 能 说 : “看 ， 这 不 是 我 的 挂 锁 ， 伪 造 者 可 能 制作 了 一 份 文 件 ， 
并 在 我 不 知情 的 情况 下 把 它 放 入 锁 箱 中 。 





拉 维 承诺 向 弗 朗 索 瓦 丝 支 
付 100 美元 





为 运用 实物 挂 锁 把 戏 制作 一 个 可 验证 签名 ， 拉 维 将 一 份 文件 拷贝 放 在 锁 箱 内 ， 并 用 一 把 他 的 挂 锁 锁 上 。 


为 防止 拉 维 使 用 这 种 欺骗 方法 ， 我 们 仍 需 要 依靠 一 个 受信 第 三 方 ， 如 银行 。 和 
前 文 的 纸 质 签名 银行 相反 ， 新 银行 会 存储 钥匙 。 因 此 ， 参 与 者 不 是 给 银行 一 份 签 
名 ， 而 是 给 银行 一 把 能 打开 目 己 挂 锁 的 实物 钥匙 。 下 图 显示 了 实物 钥匙 银行 。 


这 个 银行 是 这 一 谜 题 的 最 后 部 件 ， 完 整 了 实物 挂 锁 把 戏 的 解释 。 如 果 弗 明 率 瓦 
丝 需要 证 明 拉 维 写 了 欠条， 她 只 要 和 一 些 目击 证 人 把 锁 箱 帝 到 银行 ， 在 银行 用 拉 维 
的 钥匙 打开 箱子 即 可 。 挂 锁 能 打开 融 证 明 只 有 拉 维 能 对 箱 中 内 容 负责 ， 而 箱 中 正好 


是 那 份 弗 明 系 瓦 丝 能 试图 验证 的 文件 。 
用 乘法 挂 锁 签名 


结果 证 明 ， 我 们 创建 的 钥匙 一 挂 锁 架构 正 是 数字 等 名 所 需 的 方法 。 不 过 ， 很 明 
显 ， 我 们 不 能 在 必须 进行 电子 转换 的 签名 上 使 用 实物 挂 锁 和 实物 钥匙 。 因 此 ， 下 一 
步 融 是 用 类 似 的 能 数字 化 的 数学 对 象 取代 挂 锁 和 钥匙 。 具 体 来 说 ， 挂 锁 和 钥匙 将 用 
数字 代表 ， 上 钠 或 开锁 动作 将 由 钟 算 乘 法 ( multiplication in clock 
arithmetic ) 代表 。 如 果 你 对 钟 算 不 是 很 熟悉 ， 请 查看 第 四 章 的 解释 。 
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实物 钥匙 银行 有 很 多 钥匙 ， 用 于 开启 对 应 的 挂 锁 。 注 意 每 把 钥匙 都 是 不 同 的 。 


为 得 到 不 能 伪造 的 数字 签名 ， 计 算 机 使 用 的 钟 大 小 非常 大 一 一 钟 大 小 长 度 基 本 
在 数 十 或 数 百 位 数 。 不 过 ， 在 接 下 来 的 摘 述 中 ， 我 们 将 使 用 的 钟 大 小 会 非 昔 小 ， 基 
本 不 会 在 现实 中 运用 ， 以 确保 计算 能 简单 进行 。 


这 一 部 分 的 所 有 例子 都 使 用 11 作 为 钟 大 小 。 因 为 我 们 会 多 次 用 这 个 钟 大 小 将 数 
字 乘 起 来 。 我 在 下 面 给 出 了 一 张 表 ， 列 出 了 将 小 于 11 的 数 相 乘 得 到 的 所 有 值 。 比 
如 ， 让 我 们 来 手动 计算 7x5， 不 用 那 张 表 。 我 们 先 用 普通 算术 计算 答案 :7 x 5 = 
35。 人 然后， 我 们 保留 用 结果 除 以 11 后 的 余数 。35 除 11 得 3 ( 即 33 ) ， 余 2。 因 此 ， 最 
终结 果 是 2。 从 表 上 看 ， 第 7 行 第 5 列 的 项 的 确 是 2。 ( 你 也 能 用 第 7 列 第 5 行 一 一 顺序 
并 不 重要 ， 你 可 以 自行 查证 。 ) 你 可 以 自行 党 试 另 一 对 乘法 例子 ， 以 确保 自己 理 


解 。 


在 继续 之 前 ， 我 们 需要 上 略微 变化 一 下 我 们 尝试 要 解决 的 问题 。 在 之 前 ， 我 们 一 
直 在 寻找 让 拉 维 “签署 ”一 条 给 弗 朗 索 瓦 丝 的 消息 ( 实际 上 是 一 张 欠 条 ) 的 方法 。 
这 条 消息 用 日 常 于 语 写 束 。 但 从 现在 开始 ， 只 和 数字 打交道 要 万 便 得 多 。 因 此 , 我 
们 必须 承认 ， 计 算 机 将 消息 翻译 成 一 个 数字 字符 串 让 拉 维 签署 很 容易 。 之 后 ， 如果 
有 人 需要 验证 拉 维 对 这 个 数字 字符 串 的 签名 时 ， 计 算 机 逆转 翻译 并 把 数字 转化 成 瑞 
语 也 很 简单 。 在 讨论 校 验 和 及 更 短 符号 把 戏 时 ， 我们 遇 到 了 同样 的 问题 。 如 果 你 愿 
意 更 细致 地 理解 这 一 问题 ， 请 回顾 更 短 符号 把 戏 的 讨论 一 一 这 张 图 给 出 了 一 个 在 字 
母 和 数字 之 间 翻 译 的 简单 、 详 尽 的 例子 。 





2 3 4 6 7 8 
1 1 2 名 六 7 83 
| 小 和 6 二 1 5 7 
| 0 2 8 
| 生 吉 二 芒 记 10 3 7 
9 9 1 得 名 2 1 
| :0 瑟 
“| 2 30 6 2 9 5 1 8 ¥ 
8| 8 510 74 19 6 3 
| 是 
i0|10 9 有 7785 过 了 上 革 
钟 大 小 为 11 的 乘法 表 。 


因此 ， 拉 维 不 会 签署 一 条 用 英语 写成 的 消息 ， 而 是 必须 签署 一 个 数字 字符 串 ， 
如 “494138167543..….83271696129149”。 不 过 ， 为 简单 起 见 ， 我 们 一 开始 会 假 
设 签署 的 消息 非常 之 短 : 事实 上 ， 拉 维 的 消息 将 由 “8” 或 “5” 这 样 的 单个 数字 组 
成 。 不 要 担心 : 我 们 最 终 将 学 会 签署 长 度 更 合乎 情理 的 消息 的 方法 。 至 于 现在 ,最 
好 还 是 坚持 用 单个 数字 消息 。 

做 好 了 这 些 准备 之 后 ， 我 们 就 准备 好 理解 “乘法 挂 锁 把 戏 ” 的 核心 了 。 和 实物 
圭 锁 把 戏 一 样 ， 拉 维 会 需要 一 把 挂 锁 和 一 把 打开 挂 锁 的 钥匙 。 获 得 挂 锁 非 音 容 易 : 
拉 维 首先 选择 一 个 钟 大 小 ， 然 后 选择 比 钟 大 小 小 的 任意 数 作 为 数字 “ 挂 锁 ”。 ( 实 


际 上 ， 一 些 数 比 其 他 数 效果 更 好 ， 但 谈 这 些 细节 会 离 题 太 远 。 ) 为 让 例子 具体 化 ， 
假设 拉 维 选择 11 作 为 钟 大 小 ， 选 择 6 作 为 挂 锁 。 


| 拉 维 承诺 向 弗 朗 素 瓦 丝 
支付 100 美 元 


拉 维 承 诸 向 弗 朗 索 瓦 丝 


支付 100 匡 元 
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如 何 制 作 一 个 数字 签名 ， 用 一 把 “ 挂 锁 ”“ 锁 住 ”一 条 数字 消息 。 图 中 最 上 面 一 行 显示 了 如 何 用 一 把 实物 挂 锁 
在 一 个 箱子 中 锁 住 一 条 消息 。 图 中 最 下 面 一 行 显示 了 类 似 的 数学 操作 ， 里 面 的 消息 是 个 数字 ( 5 ) ， 挂 锁 是 另 
一 个 数字 ( 6 ) ， 上 锁 过 程 是 已 知 钟 大 小 的 乘法 。 最 终结 果 ( 8 ) 就 是 消息 的 数字 签名 。 


现在 ， 拉 维 如 何 用 挂 锁 把 消息 “ 锁 ” 入 锁 箱 呢 ? 听 起 来 也 许 很 奇怪 ， 拉 维 将 用 
乘法 做 到 这 一 点 : 拉 维 的 “上 锁 ” 消 息 将 由 挂 锁 和 消息 相 乘 ( 钟 大 小 为 11 ) 。 记 
住 ， 我 们 现在 在 处 理 一 条 由 单个 数字 组 成 的 消息 。 因 此 ， 假 设 拉 维 的 消息 是 “5”。 
那么 他 的 “上 锁 ” 消 息 会 是 6 。 x 5, 通 过 钟 算得 到 结果 为 8。 ( 你 可 以 用 前 页 的 乘法 
表 进行 双重 核对 ) 这 一 过 程 在 上 图 中 得 到 了 总 结 。 最 终结 果 “8” 融 是 拉 维 给 原始 消 
息 的 数字 签名 。 


拉 维 率 诺 辐 弗 朗 索 
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一 一 一 一 一 和 | 一 
) 11 乘 6， 钟 大 小 为 11 8 11 乘 ?， 钟 大 小 为 11 ) 
一 一 和 一 人 
3 11 乘 6， 钟 大 小 为 1] 7 11 乘 2， 仲 大 小 为 1 3 
2 11 乘 6， 钟 大 小 为 11 11 乘 ?， 钟 大 小 为 1 


如 何 使 用 数字 挂 锁 和 对 应 数字 钥匙 “上 锁 ” 并 企 随 后 “解锁 ”一 条 消息 。 图 中 最 上 面 一 行 显 示 了 实物 版 上 锁 和 
解锁 。 图 中 最 下 面 三 行 显示 了 使 用 乘法 给 消息 进行 数字 上 锁 和 解锁 的 例子 。 注 意 ， 上 锁 过 程 得 到 了 一 个 数字 签 
名 ， 而 解锁 过 程 则 得 到 了 一 条 消息 。 如 果 解 锁 消 息 与 原始 消息 匹配 ， 数 字 签 名 就 得 到 了 验证 ， 原 始 消息 为 真 。 


当然 ， 如 果 我 们 随后 不 能 运用 某 种 数学 “钥匙 ” 解 开 消息 ， 这 种 数学 “ 挂 
锁 ” 也 会 曼 无 用 处 。 笠 运 的 是 ， 有 一 种 解锁 消息 的 简单 方法 。 这 种 方法 是 再 次 使 用 
乘法 ( 和 之 前 一 样 应 用 钟 大 小 ) ， 但 这 次 我 们 会 乘 以 一 个 不 同 的 数 一 一 这 个 数字 经 
过 特别 选取 ， 能 解 开 之 前 选取 的 挂 锁 数字 


让 我 们 继续 使 用 这 个 具体 例子 ， 拉 维 仍然 用 11 作 为 钟 大 小 ， 用 6 作为 挂 锁 数字 。 
结果 显示 ， 其 对 应 的 钥匙 是 2。 我 们 怎么 知道 ? 稍 后 再 回答 这 个 重要 问题 。 现 在， 让 
我 们 继续 进行 更 容易 的 任务 ， 在 别人 告诉 我 们 钥匙 的 数值 时 验证 钥匙 奏效 。 之 前 提 


到 过 ， 我 们 通过 将 上 锁 消 息 和 钥匙 相 乘 融 能 解 开 上 锁 消 息 。 我 们 已 经 在 上 图 中 见 
过 ， 当 拉 维 将 消息 5 用 挂 锁 6 锁 上 时 ， 他 得 到 了 上 锁 消 息 ( 或 数字 签名 ) 8。 要 解锁 上 
锁 消 息 ， 我 们 将 8 用 钟 算 乘 以 钥匙 2， 得 到 结果 5。 残 像 魔术 一 样 ， 我 们 得 到 了 原始 消 
息 5 ! 整个 过 程 如 上 图 所 示 ， 你 还 能 看 到 其 他 两 个 例子 : 消息 “3” 被 锁 上 后 变 
成 “7”， 用 钥匙 界 开 始 重新 变 成 “3”。 类 似 的 ，“2” 被 锁 上 后 变 成 “1”“， 但 钥 
匙 将 其 转化 回 “2”。 


上 图 还 解释 了 该 如 何 验 证 数字 签名 。 你 只 需 用 签署 者 的 乘法 钥匙 解锁 签名 即 
可 。 如 果 解 钳 消 息 和 原始 消息 匹配 ， 签 名 束 是 真实 的 。 否 则 ， 签 名 就 肯定 是 伪造 
的 。 这 一 验证 过 程 在 下 页 图 中 进行 了 更 细致 的 展示 。 在 这 张 表 中 ， 我 们 继续 使 用 11 
作为 钟 大 小 ， 但 为 显示 我 们 目前 使 用 的 数字 挂 锁 和 钥匙 没有 特殊 之 处 ， 我 们 在 这 里 
使 用 了 多 个 不 同 的 值 。 特 别 是 ， 挂 锁 值 为 9， 而 相应 钥匙 的 值 为 5。 表 中 第 一 项 的 消 
息 是 “4”， 签 名 是 “3”。 签 名 解 开 后 结果 为 “4” 与 原 消息 匹配 ， 因 此 签名 为 本 
人 所 写 。 表 中 第 二 行列 举 了 一 个 相似 的 例子 ， 消息 为 “8”， 签名 为 “6”。 但 表 的 
最 后 一 行 显示 了 签名 系 伪造 时 的 情况 。 表 中 第 四 项 的 消息 还 是 “8”， 但 签名 却 
是 “7”。 这 个 等 名 解锁 后 是 “2”“， 与 原 消 息 不 匹配 。 因 此 ， 签 名 系 伪造 


| 同 字 签名 ( 对 于 真 签名 ， 让 消息 和 挂 锁 值 9 相 乘 。 对 于 假 | 解 
签名， 选择 一 个 随机 数 。 ) 
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如 何 侦 测 一 个 伪造 的 数字 签名 。 这 些 例 子 使 用 的 挂 锁 值 为 9， 钥 匙 值 为 5。 前 两 个 签名 为 真 ， 但 第 三 个 签名 系 伪 


“站 
J 名。 


如 果 你 回想 实物 钥匙 和 挂 锁 的 例子 ， 你 应 该 会 记得 挂 锁 有 防止 其 了 他 人 使 用 的 生 
物 传感器 一 一 否则 伪造 者 就 能 用 拉 维 的 挂 锁 将 任意 消息 所 在 箱子 中 ， 进 而 伪造 这 条 
消息 的 签名 。 同 样 的 道理 也 适用 于 数字 挂 锁 。 拉 维 必 须 保持 他 的 挂 锁 号 不 为 人 知 。 
每 次 他 签署 一 条 消息 ， 拉 维 都 要 同时 展示 消息 和 签名 ， 但 并 非 用 于 制作 签名 的 挂 锁 





朱 维 选择 的 钟 大 小 和 数字 钥匙 呢 ? 这 些 也 必须 保密 吗 ? 不 是 。 拉 维 可 以 公开 宣 
布 目 己 选 择 的 钟 大 小 和 钥匙 值 ， 有 可 能 会 通过 网 站 友 布 它们 ， 而 无 须 为 验证 签名 的 
机 制 妥协 。 如 果 拉 维 真 的 友 布 了 目 己 的 钟 大 小 和 钥 是 值 ， 任 何人 都 能 获取 这 些 数 字 
并 验证 他 的 签名 。 告 一 看 ,这 种 方法 似乎 非常 方便 一 一 但 还 是 有 些 重 要 的 细微 之 处 
需要 强调 。 





效 字 钥 是 银行 
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数字 钥匙 银行 。 该 银行 的 作用 并 非 为 数字 钥匙 和 钟 大 小 保密 。 相 反 ， 银 行 是 获取 与 任何 个 人 相关 的 真正 钥匙 和 钟 
大 小 的 受信 权威 。 银 行 可 以 自由 地 向 任何 有 要 求 的 人 展示 这 些 信息 。 


数字 钥匙 银行 


比如 ， 这 个 方法 消除 了 对 受信 和 银行 的 需求 吗 ? 纸 质 签名 技术 和 实物 挂 锁 一 钥匙 技 

术 都 需要 受信 银行。 并非 如 此 : 仍然 需要 一 个 像 银 行 这 样 的 受信 第 三 方 。 没 有 受信 
第 三 方 ， 拉 维 束 能 分 友 一 个 假 钥 匙 值 ， 让 他 的 签名 失效 。 更 糟 的 是 ， 拉 维 的 敌人 们 
可 以 制造 一 个 新 的 数字 挂 锁 和 相对 应 的 数字 钥匙 ， 并 在 一 个 网 站 上 宣称 这 融 是 拉 维 
的 钥匙 ， 然 后 用 他 们 新 伪造 的 数字 挂 锁 签 署 任何 他 们 想 要 的 消息 。 任 何 相信 这 些 当 
钥匙 属于 拉 维 的 人 都 会 相信 ,和 政 人 的 消息 是 拉 维 签署 的 消息 。 因 此 ， 银 行 的 角色 并 
不 是 为 拉 维 的 钥匙 和 和 钟 大 小 保密 。 相 反 ， 银 行 是 一 个 拉 维 的 数字 钥匙 和 和 钟 大 小 值 的 
受信 权威 。 上 图 展示 了 这 一 情况 。 


总 结 这 一 讨论 的 一 种 有 用 方法 是 : 数字 挂 锁 是 私有 的 ， 而 数字 钥匙 和 钟 大 小 则 
公开 的 。 要 承认 的 是 ， 让 钥匙“ 公开 ”有 操 违 背 常 识 ， 因 为 在 我 们 的 日 常生 活 
我 们 习惯 于 非常 小 心地 保护 我 们 的 实物 钥匙 。 为 湾 清 钥匙 这 一 不 同 寻 常 的 用 
回想 早先 描述 的 实物 挂 锁 把 戏 。 在 那个 例子 里 ， 银 行 保有 一 把 拉 维 的 钥匙 ， 并 
且 很 乐意 将 乙 们 给 任何 想 要 验证 拉 维 签名 的 人 。 因 此 ， 在 某 些 意义 上 ， 实 物 钥 是 殉 
是 “公开 的 ”。 同 样 的 道理 也 适用 于 乘法 钥匙 。 
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现在 是 强调 一 个 重要 现实 问题 的 好 时 机 : 假如 我 们 想 要 签署 不 止 一 位 数 的 消息 
呢 ?这 一 问题 有 多 种 答案 。 第 一 个 解决 万 案 是 使 用 一 个 很 大 的 钟 大 小 : 比如 ， 如 果 
我 们 使 用 一 个 1686 位 数 的 钟 大 小 ， 那 么 通过 相同 的 方法 ， 我 们 能 用 1686 位 数 的 签名 签 
署 166 位 数 的 消息 。 对 于 长 于 166 位 数 的 消息 ， 我 们 可 以 将 消息 分 成 168 位 数 的 块 ， 


并 单独 签署 每 个 块 。 但 计算 机 科学 家 们 有 一 种 更 好 的 方法 来 做 到 这 一 点 。 实 际 情况 
是 ， 出 于 签署 的 目的 ， 通 过 应 用 一 种 名 为 加 密 哈 希 消 数 的 转化 方法 ， 长 消息 能 缩减 
为 单个 块 ( 比如 168 位 数 ) 。 我 们 已 经 在 第 五 草 谈 到 过 加 密 哈 希 立 数 ， 它 们 在 第 五 草 
被 用 作 校 验 和 ， 以 确保 大 消息 ( 如 一 个 软件 包 ) 内 容 正确 。 这 里 的 想法 也 很 类 似 : 
一 条 长 消息 在 签署 前 被 缩减 为 小 得 多 的 块 。 这 意味 着 极 大 的 “消息 ”一 一 如 软件 包 
能 高 效 签署 。 为 简单 起 见 ， 我 们 将 在 余下 的 章节 中 忽略 长 消息 问题 。 





另外 一 个 重要 问题 是 : 这 些 数字 挂 锁 和 钥匙 最 初 来 目 哪里 ”之 前 曾 提 到 ， 参 与 
者 们 基本 上 能 为 挂 锁 选 择 任意 值 。 不 平 的 是 ， 隐 藏 在 单词 “essentially” ( 基本 
上 ) 背后 的 细节 1 需要 对 数字 理论 有 相当 于 本 科 谍 程 的 认识 。 但 假设 你 没有 机 会 学 习 
数字 理论 ， 让 我 来 讲述 下 列 难题 : 如 果 钟 大 小 是 个 素数 ， 那 么 任何 钟 大 小 之 外 的 正 
值 都 可 以 作为 挂 锁 。 人 否则， 情况 融 要 复杂 得 多 了 。 素 数 没有 除 1 和 目 身 之 外 的 商 。 本 
章 中 使 用 的 钟 大 小 11 残 是 素数 。 


因此 ， 选 择 挂 锁 很 简单 ， 特 别 是 在 钟 大 小 为 素数 的 情况 下 。 但 一 旦 选 定 挂 锁 ， 
我 们 还 需要 应 付 解 开 选 中 挂 锁 的 对 应 数字 钥匙 。 这 是 个 很 有 趣 一 一 也 非常 古老 一 一 
的 数学 问题 。 实 际 上 ， 这 个 问题 的 解决 方案 流传 了 数 个 世纪 ， 而 其 中 心思 想 甚 至 要 
更 为 古老 : 这 一 广为人知 的 技巧 名 为 欧 几 里 得 算法 ， 由 希腊 数学 家 欧 几 里 得 于 2 8666 
多 年 前 友 明 。 不 过 ， 我 们 不 必 在 此 追寻 钥匙 生成 的 细节 ， 只 需要 知道 ， 给 出 一 个 挂 
锁 值 ， 计 算 机 融 能 通过 一 种 名 为 欧 几 里 得 算法 的 知名 数学 技巧 得 出 相对 应 的 钥匙 
值 。 


如 果 你 仍 对 这 一 解释 不 满意 ， 也 许 在 我 稍 后 揭示 戏剧 性 转折 后 ， 你 会 变 得 高 
兴 。 整 个 挂 锁 和 钥匙 的 “乘法 ”方法 有 个 根本 缺陷 ， 必 须 被 抛 弄 。 人 在 下 一 部 分 ， 我 
们 将 用 一 种 不 同 的 方法 处 理 挂 锁 和 钥匙 ， 一 种 实际 上 已 经 在 现实 中 运用 的 方法 。 那 


么 ， 为 什么 我 还 要 解释 有 缺陷 的 乘法 系统 呢 ? 主要 原因 是 ， 所 有 人 都 融 悉 乘法 ， 这 
意味 着 不 需要 一 次 性 接受 大 量 新 知识 丈 能 解释 系统 。 另 外 一 个 原因 是 ， 在 有 缺陷 
的 乘法 方法 和 我 们 将 在 下 面 考虑 的 正确 方法 之 间 ， 存在 一 些 迷 人 的 联系 。 


但 在 继续 往 下 讲 之 前 ， 让 我 们 兰 试 理解 乘法 方法 的 缺陷 。 之 前 说 过 ， 挂 锁 值 是 
私有 的 ( 或 秘密 的 ) ， 而 钥匙 值 则 是 公开 的 。 刚 刚 也 讨论 过 ， 签 名 机 制 的 参与 者 可 
以 自由 选择 钟 大 小 ( 公开 ) 和 挂 锁 值 ( 仍旧 保密 ) ， 然 后 通过 计算 机 生成 对 应 钥匙 
值 ( 在 这 个 乘法 钥匙 的 特殊 例子 中 ， 我 们 会 使 用 欧 几 里 得 算法 ) 。 钥 是 会 存储 在 一 
个 受信 和 银行 中 ， 而 银行 会 向 任何 请 求 的 人 展示 钥匙 值 。 乘 法 方法 的 问题 在 于 ， 用 于 
从 挂 锁 生 成 钥匙 的 同样 把 戏 一 一 基本 上 是 指 欧 几 里 得 算法 一 一 能 非 负 完美 地 逆向 运 
行 : 同样 的 技术 能 让 计算 机 生成 已 有 钥匙 值 对 应 的 挂 锁 值 ! 我 们 立马 殊 知 道 了 抛弃 
整个 数字 签名 机 制 的 原因 。 因 为 钥匙 值 是 公开 的 ， 理 应 保密 的 挂 锁 值 也 能 被 任何 人 
计算 出 来 。 而 一 旦 你 知道 了 某 人 的 挂 锁 值 ， 你 就 能 伪造 那个 人 的 数字 签名 。 





用 指数 挂 锁 淮 名 


在 这 一 部 分 ， 我 们 将 升级 有 缺陷 的 乘法 系统 ， 代 之 以 一 种 在 现实 中 运用 的 著名 
数字 釜 名 机 制 RSA。 新 系统 将 使 用 一 种 不 知名 的 操作 求 属 (exponentiation ) 取代 
乘法 操作 。 事 实 上 ， 我 们 经 历 了 和 第 四 章 理 解 公 钥 加 密 相同 的 求 惊 步骤 : 我 们 先 弄 
清 一 个 使 用 乘法 的 简单 的 缺陷 系统 ， 然 后 研究 使 用 求 朝 的 真实 系统 。 


i 


因此 ， 如 果 你 对 5 和 3“ 等 恤 符 号 不 玖 悉 ， 这 是 个 重 温 “ 现 实生 活 中 的 颜料 混合 
把 戏 ” 内 容 的 好 时 机 。 但 是 要 提醒 一 句 ，34 ( “3 的 4 次 方 ” ) 意味 着 3x3x3x3。 另 
外 ， 我们 需要 几 个 技术 术语 。 在 如 3“ 这 样 的 表述 中 ，4 被 称 作 指 数 ( exponent ) 或 
医 ( power ) ， 而 3 则 被 称 为 底 ( base ) 。 在 一 个 邦 上 应 用 指数 的 过 程 被 称 为 “上 自 乘 


蝴 次 ” (raising to a power )， 更 正式 的 说 法 是 求 究 ( exponentiation ) 。 和 
第 四 章 一 样 ， 我 们 将 结合 求 蜗 与 钟 算 。 本 章 这 一 部 分 的 所 有 例子 都 用 22 作 为 钟 大 
小 。 我 们 唯一 需要 的 指数 是 3 和 7， 因 此 在 下 面 提供 了 一 张 表 ， 显示 n-* 和 和 n 的 值 ，n 为 
1 到 2e 的 整数 ( 钟 大 小 为 22 ) 。 


n 13 727 n 13 了 7 
] 1 ] 4L i 
2 8 18 lz 2 12 
3 5 9 1 学 工 生 pe 
4 20 16 1]4 16 20 
5, Ss 3 上 9 D 
6 18 8 16 4 14 
2 33 17 1 7 19 
8 6 2 18 2 6 
9 3 15 Ig ly 13 
10 10 10 20 14 4 


钟 大 小 为 22 时 n 的 三 次 方 和 七 次 方 的 值 。 


现在 让 我 们 核实 表 中 的 两 个 项 ， 确 保 它 们 有 意义 。 看 一 下 对 应 n=4 的 行 。 如 果 我 
们 不 使 用 钟 算 ， 结 果 就 是 43 =4x4x4 = 64。 但 应 用 钟 大 小 22 后 ，64 中 减 去 2 个 
22 ( 44 ) 余 26。 这 是 n3? 栏 那 一 项 为 26 的 由 来 。 类 似 的 ， 在 不 应 用 钟 算 的 情况 下 ， 你 
能 算出 47 = 16384， 比 最 接近 的 22 的 倍数 正好 大 16 ( 如 果 你 感 兴 趣 ，22 x 744 = 
16 368 ) 。 这 解释 了 n7 栏 那 一 项 为 16 的 由 来 。 


现在 我 们 最 终 准 备 好 了 观察 实际 运作 中 的 数字 签名 。 系 统 运作 的 方式 和 前 一 部 


分 的 乘法 方法 一 样 ， 只 有 一 个 例外 : 和 用 乘法 给 消息 上 锁 及 解锁 不 同 的 是 ， 我 们 用 
求 尹 来 进行 这 些 操作 。 和 前 面 的 例子 一 样 ， 拉 维 诈 先 选择 并 公开 钟 大 小 。 在 这 里 ， 
拉 维 用 22 作 钟 大 小 。 然 后 他 选择 一 个 秘密 挂 锁 值 ， 这 个 值 可 以 是 钟 大 小 之 外 的 任意 
数 ( 受制 于 一 些 细节 ， 我 们 将 在 稍 后 进行 简短 讨论 ) 。 在 这 个 例子 中 ， 拉 维 选 择 3 作 
为 挂 锁 值 。 然 后 ， 他 用 计算 机 算出 挂 锁 和 钟 大 小 对 应 的 钥匙 值 。 我 们 稍 后 会 多 了 解 
一 些 与 此 有 关 的 细节 。 但 唯一 重要 的 事实 是 ， 计 算 机 能 使 用 众所周知 的 数学 技术 ， 
轻易 根据 挂 锁 和 钟 大 小 计算 出 钥匙 。 在 这 个 例子 中 ， 结 果 证 明 铀 匙 值 7 对 应 先前 选取 
的 挂 锁 值 3。 





这 维 素 庄 癌 弗 朗 索 
瓦 经 支付 100 美元 


人 27 取 了 次 方 署 ， 20 22 取 了 次 方 禾 ， 4 
种 大 小 为 2 种 大 小 为 22 
> 一 一 一 一 区 

8 22 取 3 次 方 禾 0 22 取 7 次 方 知 ， 6 
钟 大 小 为 22 钟 大 小 为 22 
ee ————————————> 

《 2 取 3 次 方 材 ， 1 22 取 7 次 方 材 ， 《 
钟 大 小 为 22 钟 大 小 为 22 


用 求 朝 给 消息 上 锁 和 解锁 。 


上 图 给 出 了 一 些 拉 维 如 何 签署 消息 ， 以 及 其 他 人 如 何 解锁 并 核实 釜 名 的 具体 例 
子 。 如 果 消 息 是 “4”， 签 名 是 “26” : 我 们 通过 以 挂 锁 值 为 恤 ， 让 消息 求 此 朝 得 出 
结果 。 因 此 ， 我 们 要 计算 4:， 在 应 用 钟 大 小 之 后 得 286。 ( 不 要 筷 记 ， 你 可 以 用 上 页 
的 表 轻 易 地 核实 这 些 计算 。 ) 现在 ， 当 弗 朗 索 瓦 丝 想 要 验证 拉 维 的 数字 签 
名 “26” 时 ， 她 先 去 银行 得 到 拉 维 钟 大 小 和 钥匙 的 权威 值 。 ( 银行 和 之 前 例子 中 的 
一 样 ， 除 了 数字 不 同 外 ) 然后 弗 朗 索 瓦 丝 用 签名 求 钥 匙 值 的 茵 ， 再 应 用 钟 大 小 : 计 
算 结 果 为 28”= 4， 你 可 以 和 上 页 图 中 的 结果 对 照 。 如 果 结 果 和 原 消息 匹配 ( 在 这 个 
例子 中 也 的 确 匹 配 ) ， 签 名 为 真 。 上 图 显示 了 消息 “8” 和 和 “7” 的 相似 计算 。 


下 表 再 次 展示 了 这 一 过 程 ， 这 次 强调 了 签名 的 验证 过 程 。 图 中 前 两 个 例子 和 上 
一 张 图 中 的 一 样 ( 分 别 是 消息 “4” 和 “8” ) ， 都 是 真 签名 。 第 三 个 例子 的 消息 
是 “8”， 签 名 是 “9”。 在 应 用 钟 大 小 和 铀 是 值 解锁 后 ，97 的 结果 是 15， 和 原 消息 
不 匹配 。 因 此 ， 第 三 条 消息 系 伪造 


( 对 于 真 签名 ， 让 消息 求 挂 锁 值 3 的 属 。 对 于 假 签名 ，i 
择 一 个 随机 数 。 ) 
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口 
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如 何 用 求 寡 侦 测 一 个 伪造 的 数字 签名 。 这 些 例子 使 用 的 挂 锁 值 为 3， 钥 匙 值 为 7， 钟 大 小 为 22。 前 两 个 签名 为 
真 ， 但 第 三 个 签名 系 伪造 

如 前 所 述 ， 这 种 求 挂 锁 值 的 过 和 求 钥匙 值 的 恬 以 RSA 数 字 侈 名 机 制 而 闻名 。 这 个 
名 字 由 于 28 世 纪 76 年 代 首次 发 表 该 系统 的 三 位 发 明 者 姓 的 首 字母 组 合 而 成 : 罗 纳 德 


李维斯 特 ( Ronald Rivest ) 、 阿 迪 : 沙 米尔 ( Adi Shamir ) 和 雷 奥 纳 德 ' 阿 德尔 曼 
(Leonard ”Adlemen ) 。RSA 听 起 来 可 能 很 耳 熟 ， 因 为 我 们 已 经 在 讨论 公 钥 加 密 的 
第 四 章 遇 到 过 这 个 首 字 母 缩 略 词 。 事 实 上 ，RSA 既 是 一 种 公 钥 加 密 机 制 ， 又 是 一 种 数 
字 签 名 机 制 一 一 这 绝 非 偶然 ， 这 两 种 算法 之 间 有 着 很 深 的 理论 天 系 。 在 本 章 ， 我 们 

只 探索 了 RSA 的 数字 签名 面 ， 但 你 可 能 已 经 注意 到 了 一 些 和 第 四 章 思 想 惊 人 的 相似 之 
处 。 


如 何在 RSA 系 统 中 选择 钟 大 小 、 挂 锁 和 钥匙 的 细节 非常 吸引 人 ， 但 在 理解 大 致 方 
法 上 却 不 需要 这 些 细节 。 最 重要 的 是 ， 在 这 一 系统 中 ， 一 旦 选 定 挂 锁 值 ， 参 与 者 残 
能 轻易 计算 出 合适 的 钥匙 值 。 但 其 他 任何 人 想 要 逆转 这 一 过 程 都 不 可 能 : 如 果 你 知 
道 某 人 正在 用 的 钥匙 和 钟 大 小 ， 你 也 不 能 算出 对 应 的 挂 锁 值 。 这 弥补 了 早 前 解释 的 
乘法 系统 的 缺陷 。 


至 少 计算 机 科学 家 认为 RSA 很 安全 ， 但 没 人 能 肯定 。RSA 是 否 真 的 安全 ? 这 个 问 
题 是 整个 计算 机 科学 中 最 迷人 、 最 令 人 烦恼 的 问题 之 一 。 要 提 一 下 ， 这 个 问题 同时 
取决 于 一 个 未 解决 的 古老 数学 问题 ， 以 及 一 个 位 于 物理 学 和 计算 机 科学 研究 交叉 地 
市 的 最 新 热门 主题 。 数 学 问题 就 是 知名 的 整数 分 解 ( integer factorization ) ; 
而 热门 研究 主题 束 是 量子 计算 ( quantum computing ) 。 我 们 将 逐一 研究 RSA 安 全 
性 的 这 两 个 方面 ， 但 在 这 么 做 之 前 ， 我 们 需要 更 好 地 了 解 一 下 ， 像 RSA 这 样 的 数字 签 
名 机 制 “ 安 全 ”的 真正 含义 是 什么 。 


RSA 的 安全 性 


所 有 数字 签名 机 制 的 安全 性 都 要 归结 到 一 个 问题 : “敌人 能 伪造 我 的 签名 
吗 ?” 对 于 RSA 而 言 ， 这 个 问题 可 以 转化 为 “敌人 能 根据 我 的 公开 钟 大 小 和 钥匙 值 计 


算出 我 的 私人 挂 锁 值 吗 ”” “是 的 ! ”这 一 问题 的 简单 答案 也 许 会 让 你 感到 泪 六 。 
事实 上 ， 你 已 经 知道 : 通过 试 错 总 有 可 能 算出 某 人 的 挂 锁 值 。 毕 竟 ， 我 们 有 消息 、 
钟 大 小 和 数字 签名 。 我 们 知道 挂 锁 值 要 小 于 钟 大 小 ， 因 此 我 们 可 以 简单 地 逐一 尝试 
所 有 可 能 的 挂 锁 值 ， 直 到 找到 一 个 能 生成 正确 签名 的 挂 锁 值 。 这 丈 是 一 个 消息 求 每 
个 尝试 挂 锁 值 的 虹 的 问题 。 在 实际 中 ， 记 窍 是 RSA 机 制 使 用 绝对 大 的 钟 大 小 一 一 比 
如 数 干 位 数 长 。 这 样 ， 即 便 使 用 现存 最 快 的 超级 计算 机 ， 也 要 花 数 万 亿 年 才能 尝试 
所 有 可 能 的 挂 锁 值 。 因 此 ,我 们 对 政 人 是 否 能 用 某 种 方法 计算 出 挂 锁 值 不 感 兴趣 。 
相反 ， 我 们 想 知 道 敌人 是 否 能 足够 高 效 地 这 么 做 ， 从 而 造成 实际 威胁 。 如 果 敌 人 的 
最 佳 攻 击 方法 就 是 试 错 一 一 计算 机 科学 家 通常 称 之 为 暴力 破解 ( brute force ) 
一 一 我 们 可 以 一 直 都 选用 足够 大 的 数 作为 钟 大 小 ， 从 而 让 攻击 变 得 不 切实 际 。 另 一 
方面 ， 如 果 政 人 的 技术 效率 比 暴力 破解 快 很 多 ， 我们 束 可 能 有 麻烦 了 。 








比如 ， 说 回 乘法 挂 贷 和 钥匙 机 制 ， 我 们 知道 签署 人 可 以 选择 一 个 挂 锁 值 ， 然 后 
通过 使 用 欧 几 里 得 算法 计算 钥匙 值 。 但 缺陷 是 敌人 无 须 依靠 暴力 破解 束 能 逆转 过 
呈 : 结果 证 明 ， 欧 几 里 得 算法 也 能 根据 钥匙 值 计 算出 挂 锁 值 ， 而 这 一 算法 要 比 暴 力 
破解 高 效 得 多 。 这 也 是 乘法 方法 被 认为 不 安全 的 原因 。 


RSA 和 因 式 分 解 的 联系 


我 之 前 承诺 过 ， 要 展示 RSA 的 安全 性 与 一 个 名 为 整数 分 解 的 古老 数学 问题 之 间 的 
联系 。 为 理解 这 一 联系 ， 我 们 需要 多 知道 一 些 与 如 何 选 择 RSA 钟 大 小 有 关 的 细节 。 


首先 ， 回顾 一 下 素数 的 定义 : 素数 就 是 只 有 1 和 它 自 身 两 个 因子 的 数 。 比 如 ，31 
是 素数 ， 因 为 只 有 1x31 才 能 得 到 31。 但 33 却 不 是 素数 ， 因 为 33=3x11。 


现在 ， 我 们 准备 好 研究 签署 人 一 一 如 老 朋 友 拉 维 一 一 生成 RSA 钟 大 小 的 全 过 
呈 。 拉 维 做 的 第 一 件 事 是 选择 两 个 非 间 大 的 素数 。 基 本 上 这 些 素数 会 有 数 百 位 数 
长 ， 但 和 之 前 一 样 ， 我 们 用 小 例子 代 蔡 。 假 设 拉 维 选 择 了 素数 2 和 11， 然 后 将 两 数 相 
乘 ， 得 到 钟 大 小 2x11=22。 钟 大 小 会 和 拉 维 选取 的 钥匙 值 一 道 公开 。 但 一 一 这 是 关 
键 时 刻 一 一 钟 大 小 的 两 个 素数 因子 仍然 保密 ， 只 有 拉 维 知道 。RSA 之 后 的 数学 让 拉 
维 有 方法 使 用 这 两 个 素数 因子 根据 钥匙 值 算 出 挂 锁 值 ， 反 之 永 然 。 


这 一 方法 的 细 世 在 下 图 中 得 到 了 搞 述 ， 但 它们 和 我 们 的 主要 目的 无 关 。 我 们 需 
要 知道 的 融 是 ， 拉 维 的 敌人 不 能 使 用 公开 信息 ( 钟 大 小 和 钥匙 值 ) 计算 出 他 的 保密 
丰 锁 值 。 但 如 果 他 的 敌人 也 知道 钟 大 小 的 两 个 素数 因子 ， 他 们 区 能 轻易 计算 出 保密 
的 挂 锁 值 。 换 言 之 ， 如 果 拉 维 的 敌人 能 将 钟 大 小 因 式 分 解 ， 他 们 束 能 伪造 拉 维 的 等 
名 。 ( 当然 ， 可 能 还 有 其 他 破解 RSA 的 方法 。 对 钟 大 小 进行 高 效 因 式 分 解 只 是 可 能 的 
攻击 方法 之 一 。 ) 


在 这 个 小 例子 中 ， 将 钟 大 小 因 陈 分 解 ( 并 破解 数字 签名 机 制 ) 非常 容易 : 所 有 
人 都 知道 22=2x11。 但 当 钟 大 小 有 数 百 位 或 数 和 干 位 数 长 时 ， 找 出 因子 残 变 得 极其 困 
难 了 。 事 实 上 ， 尽 管 这 个 所 谓 的 “整数 分 解 ”问题 被 研究 了 数 个 世纪 ， 还 没 人 找到 
一 个 足够 高 效 的 通用 方法 解决 它 ， 并 对 标准 RSA 钟 大 小 造成 危害 。 


数学 史 中 充满 了 未 解决 问题 ， 尽 管 这 些 迷 人 间 题 缺乏 任何 实际 应 用 ， 单 靠 其 美 
学 特质 就 吸引 了 数学 家 进行 深入 研究 。 令 人 颇 感 惊讶 的 是 ， 许 多 这 类 迷人 但 显然 无 
用 的 间 题 后 来 都 有 了 很 大 的 实用 价值 一 一 在 一 些 例子 中 ， 这 一 价值 只 有 在 问题 被 研 
究 数 个 世纪 后 才 发 现 。 
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拉 维 选择 两 个 素数 ( 2 和 11 ) 并 将 两 数 相 乘 得 到 钟 大 小 ( 22 ) 。 我 们 将 其 称 
为 “第 一 ” 钟 大 小 ， 原 因 很 快 即 会 说 明 。 接 下 来 ， 拉 维 将 两 个 素数 各 减 1， 再 将 
相 减 后 得 到 的 数 相 乘 。 这 就 得 到 了 拉 维 “第 二 ” 钟 大 小 。 在 这 个 例子 中 ， 拉 维 
再 将 原 素 数 各 减 1 后 分 别 得 到 1 和 和 186， 因此 第 二 钟 大 小 为 1x16=106。 

这 时 ， 我 们 遇 到 了 一 个 令 人 极其 愉快 的 联系 ， 这 一 联系 和 之 前 描述 的 有 缺 
陷 的 乘法 挂 锁 钥 匙 系统 有 关 : 拉 维 根据 乘法 系统 选择 了 挂 锁 和 钥匙 ， 但 却 使 用 
第 二 钟 大 小 而 非 第 一 钟 大 小 。 结 果 显 示 ， 当 使 用 第 二 钟 大 小 16 时 ， 与 之 对 应 的 
乘法 钥匙 为 7。 我 们 能 很 快 证 明 这 一 方式 奏效 : 消息 “8” 乘 上 挂 锁 值 为 
8x3=24， 应 用 钟 大 小 16 后 得 “4”。 用 钥匙 解锁 “4” 得 4x7=28， 应 用 钟 大 小 
后 得 “8” 一 一 和 原 消息 一 样 。 

现在 拉 维 的 工作 完成 了 : 他 将 乘法 挂 锁 和 刚刚 选择 的 钥匙 直接 用 作 RSA 系 统 
中 的 指数 挂 锁 和 钥匙 。 当 然 ， 它 们 被 当 作 指数 使 用 时 会 选择 第 一 钟 大 小 22。 


生成 RSA 钟 、 挂 锁 和 钥匙 值 的 所 有 细节 。 


整数 分 解 这 一 问题 由 来 已 入。 对 其 最 早 的 严肃 研究 似乎 是 在 17 世 纪 ， 由 数学 家 
费 马 ( Fermat ) 和 梅森 ( Mersenne ) 进行 。 欧 拉 ( Euler ) 和 高 斯 ( Gauss ) 
两 位 数学 泰斗 一 一 也 在 接 下 来 的 世纪 里 对 这 一 问题 做 出 了 贡献 ， 其 他 许多 人 也 贡献 
了 自己 的 力量 。 但 直到 公 铀 加 密 于 26 世 纪 76 年 代 友 明 ， 分 解 大 数字 的 困难 才 成 为 一 
个 实际 应 用 的 关键 。 你 现在 应 该 知道 ， 任 何 发 明 一 种 高 效 分 解 大 数字 算法 的 人 都 能 


随意 伪造 数字 签名 。 








在 这 听 起 来 有 氮 危 言 曾 听 之 前 ， 我 要 澄清 -一 点，26 世 纪 76 年 代 后 友 明 了 无 数 其 
他 数字 等 名 机 制 。 尽 管 每 种 机 制 都 依赖 于 一 些 基 本 数学 难题 的 难 解 度 ， 但 不 同 的 机 
制 依赖 不 同 的 数学 难题 。 因 此 ， 发 明 一 种 高 效 的 分 解 因子 算法 只 会 破坏 类 RSA 机 制 。 


另 一 方面 ， 计 算 机 科学 家 都 对 一 个 适用 于 所 有 这 些 系统 的 迷人 问题 感到 困扰 : 
没有 一 种 机 制 被 证 明 是 安全 的 。 每 一 种 机 制 都 依赖 于 一 些 很 复杂 、 解 题 时 间 很 长 的 
数学 难题 。 而 在 每 个 难题 中 ， 理 论 学 家 叉 不 能 证 明 没 有 高 效 解 决 方案 仓 在 。 因 此 ， 
尽管 专家 们 认为 可 能 性 非常 低 ， 但 原则 上 任何 时 候 任 何 一 种 加 密 或 数字 签名 机 制 都 
可 能 被 攻破 。 


RSA 和 量子 计算 机 的 联系 


我 史 现 了 揭露 RSA 和 一 个 古老 数学 问题 之 间 联 系 的 承诺 ， 但 还 未 解释 RSA 与 量子 
计算 这 一 热门 研究 主题 之 间 的 联系 。 要 探究 这 一 联系 ， 我 们 必须 首先 接受 下 列 基本 
事实 : 在 量子 力学 中 ， 物 体 移 动 由 概率 主导 一 一 与 经 典 物理 学 的 决定 论 定 律 

( deterministic ”laws ) 相反 。 因 此 ， 假 如 你 用 易 受 量子 力学 影响 的 部 件 搭建 一 
台 计 算 机 ， 它 所 计算 的 值 会 由 概率 决定 ， 而 非 经 典 计算 机 生成 的 由 e 和 1 组 成 的 绝对 
确定 的 序列 。 看 待 这 一 情况 的 另 一 种 角度 是 ， 量 子 计 算 机 会 同时 存储 多 个 不 同 的 


值 : 不 同 的 值 有 不 同 的 概率 ， 但 在 你 强 授 计算 机 输出 一 个 最 终 答案 前 ， 所 有 值 都 同 
时 存在 。 这 让 量子 计算 机 同时 计算 多 个 不 同 可 能 的 答案 成 为 可 能 。 对 于 一 些 特定 种 
类 的 间 题 ， 你 可 以 使 用 “暴力 破解 ”方法 同时 尝试 所 有 可 能 的 解决 方案 ! 


这 确实 只 对 特定 种 类 的 问题 奏效 ， 但 整数 分 解 恰巧 就 是 量子 计算 机 在 执行 效率 
上 比 经 典 计 算 机 快 得 多 的 任务 之 一 。 因 此 ， 如 果 你 能 搭建 一 台 能 处 理 数 干 位 数 数字 
的 量子 计算 机 ， 你 就 能 像 先前 解释 的 一 样 伪造 RSA 签 名 : 因 式 分 解 公开 钟 大 小 ， 使 用 
因子 得 到 第 二 钟 大 小 ， 再 使 用 第 二 钟 大 小 从 公开 钥匙 值 中 获得 私密 挂 锁 值 。 


在 我 于 2811 年 写 下 这 些 文字 时 ， 量子 计 算 的 理论 超前 实践 很 多 。 人 研究 人 员 们 尝 
试 搭 建 真正 的 量子 计算 机 ， 但 目前 为 止 由 量子 计算 机 执行 的 最 大 因 式 分 解 是 15=3x5 
一 一 离 因 式 分 解数 干 位 数 长 的 RSA 钟 大 小 还 相差 其 远 ! 而 且 在 创造 更 大 的 量子 计算 
机 前 ， 还 有 非常 具体 的 问题 需要 解决 。 因 此 ， 没 人 知道 量子 计算 机 何 时 一 一 或 能 人 否 
一 一 大 到 能 够 一 次 性 破解 RSA 系 统 。 





实际 中 的 数字 签名 


在 本 章 开 头 ， 我 们 了 解 到 如 你 我 的 终端 用 户 并 没有 太 多 数字 签名 的 需求 。 一 些 
计算 机 深度 用 户 的 确 会 对 电子 邮件 消息 等 东西 签名 ， 但 对 于 绝 大 多 数 人 而 言 ， 数 字 
签名 的 主要 用 途 是 验证 下 载 后 的 内 容 。 最 明显 的 例子 是 ， 当 你 下 载 一 份 新 软件 时 ， 
如 果 软 件 有 签名 ， 计 算 机 就 会 使 用 签名 者 的 公 钥 “ 解 开 ” 签 名 ， 并 将 结果 和 签名 者 
的 “消息 ”一 一 也 就 是 软件 本 身 一 一 对 比 。[ 之 前 提 过 ， 在 实践 中 ， 软 件 会 在 
签名 前 被 缩减 成 一 条 小 得 多 的 名 为 安全 哈 希 ( secure hash ) 的 消息 。] 
如 果 解 开 的 签名 与 软件 匹配 ， 你 会 看 到 一 条 鼓舞 人 的 消息 ; 否则 ， 你 会 看 到 一 个 更 


加 可 怕 的 警告 : 这 两 个 例子 都 在 本 章 开 头 的 图 中 有 显示 。 


我 一 直 都 强调 ， 本 草 所 有 机 制 都 需要 某 种 受信 “银行 ”存储 签名 者 的 公 钥 和 和 钟 
大 小 。 科 运 的 是 ， 你 可 能 也 注意 到 了 ， 每 次 下 完 一 些 软件 ， 你 都 无 须 去 一 家 真正 的 
银行 。 在 现实 生活 中 ， 存储 公 钥 的 受信 组 织 被 称 为 认证 机 构 ( certification 
authorities ) 。 所 有 认证 机 构 都 有 维护 服务 器 ， 有 需要 的 人 可 以 连接 这 些 服务 器 
下 载 公 钥 信息 。 因 此 ， 当 你 的 计算 机 收 到 一 个 数字 签名 时 ， 签 名 还 会 伴 有 说 明 可 以 
去 哪些 认证 机 构 获 取 签 名 者 公 钥 的 信息 。 


你 可 能 已 经 注意 到 了 这 个 问题 : 的 确 ， 计算机 能 先 一 步 通过 制定 认证 机 构 验 证 
签名 ， 但 我 们 怎么 才能 信任 机 构 本 身 呢 ? 我 们 的 做 法 束 是 将 验证 一 个 组 织 ( 友 送 软 
件 给 你 的 组 织 ， 如 NanoSoft. com ) 身份 的 问题 ， 转 移 为 验证 另 一 个 组 织 ( 认证 机 
构 ， 如 TrustMe Inc ) 身份 的 问题 。 不 管 你 相 不 相信 ， 这 个 问题 基本 上 通过 认证 机 
构 (TrustMe Inc. ) 的 数字 签名 指引 你 前 往 另 一 个 认证 机 构 ( 如 PleaseTrustUs 
Ltd. ) 验证 。 这 种 信任 链 可 以 无 限 扩展 ， 但 我 们 永远 会 卡 在 同一 问题 上 : 我 们 如 何 
能 信任 链条 末端 的 组 织 ? 答案 如 上 图 所 示 ， 一 些 特定 组 织 被 正式 指认 为 所 谓 的 根 认 
证 机 构 。Verisign、Globalsign 和 GeoTrust 等 都 是 较为 知名 的 根 认 证 机 构 。 在 你 
有 要 求 时 ， 众 多 根 认 证 机 构 的 联系 细节 ( 包括 互联 网 地 址 和 公 钥 ) 会 预 装 到 ) 浏 星 
软件 中 ， 这 也 是 数字 证 书 的 信任 链 稳 立 于 一 个 值得 信任 的 起 点 的 原因 。 
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获取 验证 数字 签名 所 需要 的 信任 链 。 


在 本 章 开头 ， 我 指出 “digital signature” (数字 签名 ) 这 一 短语 可 以 被 视 
为 矛盾 修饰 法 : 任何 数字 的 东西 都 能 被 拷贝 ， 而 签名 不 应 该 能 被 拷贝 。 如 何 解 决 这 
一 悖 论 呢 ? 答案 是 ， 一 个 数字 签名 同时 依赖 一 个 只 有 签名 者 知道 的 秘密 和 被 签 署 的 
消息 。 对 于 由 某 一 特别 实体 签署 的 所 有 消息 ,秘密 ( 我 们 在 全 章 中 称 其 为 挂 锁 ) 都 
相同 。 因 此 ， 任 何人 都 能 轻易 拷贝 签名 的 事实 就 变 得 无 天 紧要 了 : 签名 只 可 能 转化 
成 一 条 相同 的 消息 ， 仅 仪 是 拷贝 釜 名 并 不 构成 伪造 。 


这 一 导论 的 解决 方案 不 仅仅 是 个 精巧 美丽 的 思想 。 数 字 答 名 还 起 者 巨大 的 实际 
作用 : 没有 数字 签名 ,我们 所 知 的 互联 网 就 不 会 存在 。 数 据 仍 可 以 通过 加 密 安全 交 
损 ， 但 要 验证 接收 数据 的 来 源 残 要 困难 得 多 。 这 一 伟大 思想 和 如 此 广泛 的 实际 影响 


相 结 合 ， 无疑 让 数字 签名 成 为 计算 机 科学 中 最 伟大 的 成 就 之 一 。 


第 十 章 
什么 可 以 计算 
一 一 有 些 程序 不 可 能 存在 


让 我 提醒 你 一 些 计算 机 的 问题 。 


一 一 理 查 德 - 费 曼 ( Richard Feynman ) ，1965 年 诺 贝尔 物理 学 奖 获得 者 


我 们 已 经 见识 过 很 多 职 明 、 强 大 且 精 准 的 算法 一 一 这 些 算法 将 计算 机 的 生硬 金 
属 化 为 你 指 尖 的 精灵 。 事 实 上 ， 根 据 前 面 章节 的 描述 ， 很 自然 让 人 想到 : 有 什么 事 
情 是 计算 机 不 能 为 我 们 做 到 的 吗 ? 如 果 我 们 把 范围 限制 在 计算 机 现在 能 做 的 事情 
上 ， 答 案 很 清楚 : 目前 ， 计 算 机 在 许多 有 用 任务 ( 大 多 数 设计 某 种 形式 的 人 工 智 
能 ) 上 表现 不 好 。 例 如 英语 和 汉语 这 些 语 言 之 间 的 高 质量 翻译 ; 在 繁忙 的 城市 环境 
中 自动 控制 车 辆 安全 快速 行驶 ; 给 学 生 功 课 打 分 ( 作为 老师 ， 这 对 我 来 说 是 个 大 问 


题 ) 。 





然而 ， 正 如 我 们 已 经 看 到 那样 ， 一 个 真正 聪明 的 算法 能 取得 的 成 果 单 弟 出 人 意 
料 。 也 许 融 在 明天 ， 有 人 友 明 了 一 种 完美 驾驶 汽车 的 算法 ， 或 一 种 在 给 学 生 打 分 上 
效果 很 好 的 算法 。 这 些 间 题 看 起 来 的 确 很 困难 ， 但 是 否 困难 到 不 能 解决 呢 ? 的 确 ， 
有 问题 能 难 到 永远 没有 人 能 发 明 解决 它 的 算法 吗 ? 在 本 章 ， 我 们 会 看 到 答案 是 肯定 
的 : 有 些 问题 计算 机 永远 也 解决 不 了 。 这 一 显著 事实 一 一 一 些 事情 “可 计算 ”而 其 
他 事情 则 不 能 一 一 与 我 们 在 前 面 章 节 中 所 见 的 许多 算法 形成 有 趣 对 比 。 不 管 未 来 会 
发 明 多 少 聪明 算法 ， 有 些 问题 的 管 案 永 远 也 “不 可 计算 ”.。 





不 可 计算 问题 的 存在 本 身 就 足够 震撼 ， 但 发 现 它们 的 故事 更 令 人 印象 深刻 。 在 
发 明 出 第 一 台电 子 计算 机 前 ， 这 类 问题 的 存在 就 已 为 人 所 知 。 有 两 位 数学 家 一 一 一 
位 是 美国 人 ， 一 位 是 英国 人 一 于 26 世 纪 36 年 代 末 各 自 独立 发 现 了 不 可 计算 问题 ， 
比 第 一 台 真 正 的 计算 机 自 第 二 次 世界 大 战 之 间 出 现 早 数 年 。 那 位 美国 人 是 阿 隆 佐 . 邱 
奇 ( Alonzo Church ) ， 其 在 计算 理论 上 的 突破 性 工作 至 今 仍 是 计算 机 科学 许多 方 
面 的 基础 。 那 位 英国 人 只 能 是 阿兰 .图 灵 ， 其 被 普遍 视 为 创建 计算 机 科学 最 重要 的 人 
物 。 图 灵 的 工作 横 跨 计算 思想 的 整个 范围 ， 从 复杂 的 数学 理论 、 伟 大 的 哲学 到 大 胆 
实际 的 工程 学 。 在 本 章 ， 我 们 追随 抒 奇 和 图 灵 的 脚步 ， 进 行 一 次 最 终 会 展示 某 个 特 


殊 任 务 不 可 能 使 用 计算 机 完成 的 旅程 。 这 一 旅程 将 于 下 一 部 分 对 漏洞 和 月 演 的 讨论 
开始 。 


漏洞 、 朋 省 及 软件 的 可 靠 性 


近年 来 计算 机 软件 的 可 靠 性 得 到 了 大 幅 提升 ， 但 我 们 都 知道 ， 假 设 软件 会 正确 
运行 仍然 不 是 一 个 好 主意 。 最 通常 的 情况 是 ， 即 便 高 质量 、 编 写 良好 的 软件 都 会 做 
些 偏离 其 原 有 目的 的 事 。 最 糟 料 的 情况 是 ， 软 件 “ 朋 演 ”， 你 丢失 了 正在 处 理 的 数 
据 或 文件 ( 或 你 正在 玩 的 视频 游戏 一 一 非常 令 人 不 和 解 ， 我 束 辜 到 过 这 种 事 ) 。 但 任 
何在 26 世 纪 86 年 代 和 96 年 代 见 过 家 用 计算 机 的 人 都 能 作证 ， 当 时 计算 机 程序 骨 溃 的 
频率 要 比 21 世 纪 大 得 多 。 取 得 这 一 提升 有 许多 原因 ， 但 主要 原因 是 目 动 化 软件 检查 
工具 上 取得 的 巨大 进步 。 换 言 之 ， 一 旦 一 组 计算 机 程序 员 编 写 完 一 个 复杂 的 大 型 计 
算 机 程序 ， 他 们 融 能 使 用 一 个 目 动工 具 检 查 可 能 导致 这 一 新 建 软件 朗 溃 的 问题 。 而 
这 些 目 动 化 检查 工具 在 友 现 潜在 错误 上 也 变 得 越 来 越 好 。 


这 自然 会 直人 思考 一 个 问题 : 自动 化 软件 检查 工具 能 否 友 展 到 可 以 侦 测 所 有 计 
算 机 程序 中 所 有 潜在 问题 的 地 步 呢 ? 要 是 能 这 样 肯 定 很 好 ， 因 为 这 能 一 劳 水 移 地 消 
除 软 件 朋 演 的 可 能 性 。 我 们 将 在 本 草 了 解 到 ， 永 远 也 达 不 到 这 种 软件 理想 境界 : 可 
以 证 明 不 可 能 有 软件 检查 工具 能 侦 测 出 所 有 程序 中 所 有 可 能 的 月 江 。 


在 这 里 ， 值 得 花 多 后 时 间 解 释 一 些 事情 “可 以 证 明 不 可 能 ”的 意思 。 在 物理 学 
和 生物 学 等 大 多 数 科学 中 ， 科 学 家 们 会 对 特定 系统 的 行为 方式 提出 假说 ， 并 开展 实 
验 ， 验 证 假说 是 否 正 确 。 但 由 于 实验 本 身 有 一 定 的 不 确定 性 ， 并 不 能 百 分 百 确定 假 
说 正确 与 否 ， 即 便 实验 本 身 非 常 成 功 。 然 而 ， 与 目 然 科学 形成 鲜明 对 比 的 是 ， 对 数 
学 和 计算 机 科学 的 一 些 结果 是 可 能 百 分 百 予以 确定 的 。 只 要 你 接受 数学 基本 定理 


( 如 1+1=2 ) ， 数 学 家 使 用 的 演绎 推理 链 可 以 完全 确定 其 他 众多 语句 为 真 ( 比 
如 ，“ 任 何以 5 结束 的 数 都 能 被 5 相 除 ” ) 。 这 种 推理 并 不 涉及 计算 机 : 数学 家 只 使 
用 一 文 铅笔 和 一 张 纸 融 能 证 明 无 可 争辩 的 事实 。 


因此 ， 在 计算 机 科学 中 ， 当 我 们 说 “X 可 以 证 明 不 可 能 ”时 ， 我 们 并 不 只 是 说 X 
似乎 非常 困难 ， 或 在 实际 中 也 许 不 可 能 实现 ， 而 是 百 分 百 确 定 X 不 可 能 实现 ， 因 为 有 
人 用 演绎 数学 推理 链 证 明了 这 一 点 。 举 个 简单 例子 ，“16 的 倍数 以 数字 3 结尾 可 以 证 
明 不 可 能 ”。 另 一 个 例子 是 本 章 的 最 终结 论 : 可 以 证 明 不 可 能 存在 一 个 能 侦 测 所 有 
计算 机 程序 中 所 有 潜在 月 省 的 目 动 化 软件 检查 器 。 


证 明 一 些 事情 不 为 真 


要 证 明 这 种 骨 溃 侦 测 程序 不 可 能 人 存在， 我 们 将 要 使 用 一 种 被 数学 家 称 为 反 证 法 
(proof by contradiction ) 的 技巧 证 明 。 尽 管 数 学 家 喜欢 对 这 一 技巧 宣示 权 
利 ， 但 实际 上 人 们 在 日 常生 活 中 常常 用 到 它 ， 经 常 连 想 都 没 想 过 。 举 个 简单 例子 : 


一 开始 ， 我 们 要 同意 下 面 两 个 事实 ， 即 便 是 最 持 怀 疑 的 历史 学 家 也 不 会 对 此 有 


异议 。 


1. 美国 内 战 发 生 在 19 世 纪 66 年 代 。 
2. 亚伯拉罕 .林肯 是 美国 内 战 期 间 的 总 统 。 


现在 ， 假 设 我 作出 以 下 声明 : “亚伯拉罕 -林肯 生 于 1526 年 。” 这 一 声明 是 真是 
假 ? 即便 你 除了 上 面 两 个 事实 外 对 亚伯拉罕 -林肯 一 无 所 知 ， 你 怎 能 快速 判断 我 的 声 
明 为 假 呢 ? 


最 有 可 能 的 情况 是 ， 你 的 大 脑 会 经 历 类 似 下 面 的 推理 链 : ( 1 ) 没有 人 的 寿命 能 
超过 156 年 ， 因 此 如 果 亚 伯 拉 罕 林肯 生 于 1526 年 ， 他 最 迟 也 是 在 1676 年 死亡 ; 
( 2 ) 林肯 是 美国 内 战 期 间 的 总 统 ， 因 此 内 战 必须 发 生 在 林肯 死亡 前 ， 也 就 是 发 生 在 
1676 年 前 ; ( 3 ) 但 这 不 可 能 ， 因 为 所 有 人 都 认同 美国 内 战 发 生 在 19 世 纪 66 年 代 ; 
(4 ) 因此 ， 林 肯 不 可 能 生 于 1526 年 。 


让 我 们 尝试 更 细致 地 检验 这 一 推理 。 为 何 得 出 最 开始 声明 为 假 的 结论 有 效 ? 这 
是 因为 我 们 证 明 这 一 断言 与 一 些 已 知 为 真 的 事实 了 矛盾。 特别 是 ， 我 们 证 明 最 初 声 明 
暗示 美国 内 战友 生 在 1676 年 前 一 一 这 与 美国 内 战友 生 在 19 世 纪 66 年 代 的 已 知事 实 相 
矛盾 。 


反 证 法 技 15 极 其 重要 ， 我 还 要 再 多 举 操 数学 例子 。 假 设 我 做 出 下 列 断 言 : “人 
的 心脏 16 分 钟 内 平均 跳 6 ”8668 次 。” 这 一 断言 是 真是 假 ? 你 也 许 很 快 就 会 怀疑 ,但 
你 要 如 何 证 明 其 为 假 呢 ? 现在 ， 在 继续 往 下 读 前 ， 伦 几 秒 钟 分 析 下 你 的 思考 过 程 。 


我 们 可 以 再 用 反 证 法 。 首 先 ， 出 于 论证 的 目的 ， 假 设 这 一 断言 为 真 : 人 的 心脏 
16 分 钟 平均 跳 约 6 ”e688 次 。 如 果 这 一 断言 为 真 ， 一 分 钟 心脏 会 跳动 多 少 次 ? 平均 来 
看 ， 用 6 6668 除 以 10， 也 就 是 一 分 钟 669 次 。 即 便 不 是 医学 专家 ， 你 也 知道 这 比 正常 
心率 高 很 多 ， 正 常 心率 约 为 每 分 钟 56 次 至 156 次 心跳 。 因 此 ， 原 始 声明 与 已 知事 实 矛 
盾 ， 肯 定 为 假 : 人 的 心脏 16 分 钟 平均 跳动 约 6 686 次 为 假 。 


用 更 抽象 的 术语 表示 ， 可 以 如 下 总 结 反 证 法 : 假设 怀疑 某 个 声明 s 为 假 ， 但 你 却 
想 确 信 无 疑 地 证 明 其 为 假 。 首 先 ， 你 假设 $ 为 真 。 通 过 进行 一 些 推理 ， 你 得 出 某 个 声 
明 T 也 必须 为 真 。 然 而 ， 如 果 已 知 T 为 假 ， 丈 出 现 了 矛盾 。 这 证 明 你 的 原始 假设 ( S ) 
也 必 为 假 。 


数学 家 可 以 更 为 简短 地 说 明 这 些 ， 只 要 说 “Ss 导 出 T， 但 T 为 假 ， 因此 s 为 假 ” 这 
样 的 话 即 可 。 箔 言 之 ， 这 束 是 有 反 证 法 。 下 表 展 示 了 如 何 将 这 一 


抽象 反 证 法 与 上 面 两 个 例子 联系 起 来 : 


S ( 原始 声明 ) 林肯 生 于 1526 年 
人 的 心脏 16 分 钟 平均 跳 6 666 次 
T ( 由 s 导 出， 但 已 知 其 为 假 ) 美国 内 战 发 生 在 1676 年 前 
人 的 心脏 每 分 钟 跳 666 次 
结论 : 5 为 假 林肯 并 非 生 于 1526 年 
人 的 心脏 16 分 钟 内 不 会 跳 6 666 次 


到 这 里 ， 我 们 进行 反 证 法 的 旅程 就 完成 了 。 本 章 的 最 终 目 标 是 通过 反 证 证 明 ， 
不 存在 一 个 能 侦 测 其 他 程序 中 所 有 可 能 月 演 的 程序 。 但 在 迈 向 这 一 最 终 目标 前 ， 我 
们 需要 熟悉 一 些 和 计算 机 程序 有 关 的 有 趣 概 念 。 





分 析 其 他 程序 的 程序 


计算 机 会 严格 按照 计算 机 程序 的 指令 行事 。 它 们 完全 按照 决定 论 方式 行事 ， 
此 每 次 运行 同一 计算 机 程序 都 会 得 到 相同 的 结果 。 输 出 是 对 还 是 错 ? 事实 上 ， 我 还 
没有 给 你 足够 信息 来 回答 这 一 问题 。 的 确 ， 特 定 的 简单 计算 机 程序 每 次 运行 后 都 能 
得 到 相同 的 结果 ， 但 我 们 每 天 使 用 的 绝 大 多 数 程序 每 次 在 运行 时 看 起 来 都 非常 不 
同 。 想 想 你 最 喜欢 的 文字 处 理 程序 : 每 次 启动 时 屏幕 看 起 来 都 一 样 吗 ? 当然 不 是 
一 一 屏幕 出 现 什 么 取决 于 你 打开 的 文件 类 型 。 如 果 我 使 用 Microsoft ”Word 软件 打 
开 文 件 “address-list.docx”， 屏 幕 束 会 显示 一 个 我 保存 在 电脑 上 的 地 址 列表 。 


如 果 我 用 Microsoft Word 软 件 打开 文件 “bank-letter.docx”， 我 就 能 看 到 昨天 
写 给 银行 的 信件 文本 。 ( 如 果 你 不 认识 “.docx”“， 请 在 下 页 的 框 中 查找 关于 文件 名 
后 缀 的 内 容 。 ) 


有 件 事 我 们 要 非常 清楚 : 我 在 这 两 个 例子 中 使 用 的 都 是 同一 款 计算 机 程序 ， 也 
束 是 Microsoft Word 软 件 ， 只 是 每 个 例子 中 的 输入 不 同 办 了 。 不 要 被 所 有 现代 操作 
系统 都 能 让 你 双击 一 个 文件 来 运行 一 个 计算 机 程序 这 一 事实 所 愚弄 。 那 只 是 你 友好 
的 计算 机 公司 ( 最 可 能 是 苹果 或 微软 ) 提供 给 你 的 一 项 便利 。 当 你 双击 一 份 文件 
时 ， 一 个 特定 的 计算 机 程序 就 会 运行 ， 程 序 会 将 文件 当 作 输 入 使 用 。 而 程序 的 输出 
束 是 你 在 屏幕 上 看 到 的 ， 这 取决 于 你 点 击 了 什么 文件 。 


在 整 章 中 ， 我 都 会 使 用 如 “abcd .txt” 这 样 的 文件 和 名。 英文 句号 后 面 的 部 
分 被 称 为 文件 名 的 “后 缀 ” ( extension ) “abcd.txt” 的 后 缀 就 
是 “txt”。 绝 大 多 数 操作 系统 用 一 个 文件 名 的 后 缀 判定 文件 包含 什么 类 型 的 数 
据 。 比 如 ，“.txt” 文 件 通 常 包含 纯 文 本 ，“.htm1” 文 件 通常 包含 网 页 ， 
而 “.docx” 文 件 则 包含 Microsoft Word 文件 。 一 些 操作 系统 默认 隐藏 这 些 后 
缀 ， 只 有 在 操作 系统 中 关闭“ 隐藏 后 缀 ”功能 后 才能 看 到 。 在 网 络 中 搜 


索 “unhide file extensions” (显示 文件 后 缀 ) 会 显示 如 何 操作 的 指南 。 





一 些 关 于 文件 名 后 缀 的 技术 细节 。 


在 现实 中 ， 计 算 机 程序 的 输入 和 输出 要 比 这 复杂 得 多 。 比 如 ， 当 你 点 击 一 个 程 
序 的 菜单 或 打字 时 ， 你 都 在 给 程序 以 额外 输入 。 当 你 保存 一 个 文档 或 其 他 文件 时 ， 
程序 会 创造 额外 输出 。 但 为 保持 简单 起 见 ， 假 设 程序 接收 的 都 是 同样 的 输入 ， 即 存 
储 在 你 计算 机 上 的 一 个 文件 。 我 们 还 假设 程序 得 到 相同 的 输出 ， 即 你 显示 屏 上 的 图 


形 窗口 。 


不 幸 的 是 ， 双 击 文件 的 现代 便利 产生 了 一 个 重要 问题 。 操 作 系 统 使 用 多 种 聪明 
的 把 戏 来 推测 ， 当 你 双击 一 个 文件 时 ， 你 希望 运行 哪个 程序 。 但 用 任意 程序 打开 任 
意 文件 是 可 能 的 ， 总 识 到 这 一 点 很 重要 。 换 言 之 ， 你 可 以 将 任意 文件 作为 输入 来 运 
行 任意 程序 。 这 一 切 是 怎么 做 到 的 ? 下 面 的 框 列 出 了 几 种 可 以 让 你 尝试 的 方法 。 这 
些 方法 不 会 在 所 有 操作 系统 上 奏效 ， 也 不 能 对 所 有 输入 文件 奏效 一 一 不 同 的 操作 系 
统 用 不 同 的 方式 局 动 程序 ， 有 了 时 候 出 于 安全 考虑 ， 它 们 会 限制 输入 文件 的 选择 。 不 
管 怎 样 ， 我 强烈 建议 你 花 几 分 钟 在 电脑 上 试验 ， 以 确信 你 钟爱 的 文字 处 理 程序 可 以 
用 多 种 不 同 的 输入 文件 运行 。 





下 面 列 举 三 种 用 stuff .txt 作 为 输入 文件 运行 Microsoft ”Word 软件 的 方 
> 
.右键 点 击 stuff .txt ,1 选择 “打开 方式 ”， 选择 Microsoft Word。 


首先， 用 操作 系统 的 功能 在 桌面 上 放置 一 个 Microsoft Word 的 快捷 方 
式 。 然 后 将 stuff .txt 拖 动 到 这 个 Microsoft Word 快 捷 方 式 中 去 。 


.直接 打开 Microsoft ”Word 软件 ， 选 择 “文件 ”菜单 的 “打开 ”命令 ， 确 
保 选 项 显示 “所 有 文件 ”， 然 后 选择 stuff.txt。 


用 某 一 特定 文件 作为 输入 运行 一 个 程序 的 多 种 方法 。 
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Microsoft Excel 将 “photo.jpg” 作 为 输入 运行 的 结果 。 输 出 虽 是 乱码 ， 但 重要 的 是 ， 原则 上 你 能 用 任何 输 
入 运行 任意 程序 。 

很 显然 ， 如 果 使 用 程序 打开 本 非 其 能 处 理 的 文件 ， 你 会 得 到 相当 出 人 意料 的 结 
果 。 在 上 图 中 ， 你 可 以 看 到 用 电子 表格 程序 Microsoft Excel1 打 开 图 片 广 
件 “photo.jpg” 时 出 现 的 情景 。 这 个 例子 得 到 的 输出 是 乱码 ， 宫 无 用 处 。 但 电子 
表格 程序 的 确 运 行 了 ， 并 生成 了 一 些 输出 。 


上 面 的 例子 看 起 来 已 经 很 这 廖 了 ， 但 我 们 要 更 加 疯狂 一 品 。 你 应 该 还 记得 ， 计 
算 机 程序 本 身 束 作 为 文件 存储 在 计算 机 硬盘 上 。 通 常 ， 这 些 程序 的 名 字 
以 “.exe” 结尾 ，“exe” 是 “executable”( 可 执行 ) 的 缩写 ， 表 示 你 
能 “execute” ( 执行 ) 或 运行 程序 。 因 为 计算 机 程序 只 是 硬盘 上 的 文件 ， 我 们 可 
以 将 一 个 计算 机 程序 作为 另 一 个 计算 机 程序 的 输入 。 比 如 ，Microsoft Word 程 序 在 
计算 机 上 以 文件 “WINWORD .EXE” 和 存储 ， 通 过 将 文件 WINWORD .EXE 作 为 输入 来 运行 
电子 表格 程序 ， 我 能 得 到 如 下 图 中 所 示 的 乱码 。 
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用 Microsoft Excel 检 查 Microsoft Word。 当 Microsoft Excel 打 开 文 件 NINWORD .EXE， 得 到 的 结果 是 乱码 
一 点 也 不 让 人 意外 。 


和 前 面 一 样 ， 值 得 杀 自 试 一 试 这 个 实验 。 要 进行 这 一 实验 ， 你 需要 先 找到 文件 
WINWORD . EXE。 在 我 的 计算 机 上 ，WINWORD .EXE 位 于 文件 夹 “C:\Program 
Files\Microsoft 0ffice\0Office12” 内 ，, 但 其 具体 位 置 取决 于 你 使 用 的 操作 系 
统 以 及 安装 的 Microsoft 0ffice 版 本 。 在 查看 这 一 文件 夹 之 前 ， 你 也 许 还 需要 启用 
查看 “隐藏 文件 ”的 功能 。 顺 便 提 一 句 ， 你 可 以 用 任何 电子 表格 或 文字 处 理 程序 进 
行 这 一 实验 ( 以 及 下 面 的 一 个 实验 ) ， 尝 试 并 不 一 定 要 用 Microsoft Office。 


我 们 还 要 做 最 后 一 件 傻 事 。 如 果 用 一 个 计算 机 程序 自身 作为 输入 来 运行 这 个 程 
序 呢 ? 比如 ， 如 果 我 用 文件 NINNORD . EXE 作为 输入 来 运行 Microsoft Word 呢 ? 尝试 
这 一 实验 很 容易 。 下 图 显示 了 我 在 计算 机 上 试验 的 结果 。 和 之 前 的 几 个 例子 一 样 ， 
程序 运行 良好 ， 但 屏幕 上 的 输出 绝 大 多 数 是 乱码 。 ( 自己 尝试 一 下 。 ) 


那么 ， 所 有 这 些 例子 想 表达 什么 ?论述 的 目的 是 ， 让 你 能 对 一 些 在 运行 程序 时 
出 现 的 更 难 懂 的 事情 见怪 不 怪 。 现 在 ， 你 应 该 适应 这 三 个 略 显 奇怪 但 在 后 面 非常 重 
要 的 想法 了 。 第 一 ， 任 何 程序 可 以 将 任何 文件 作为 输入 运行 ， 但 通常 输出 结果 为 乱 


码 ， 除 非 输入 文件 本 该 配合 由 你 选择 运行 的 程序 。 第 二 ， 我 们 发 现 ， 计 算 机 程序 作 
为 文件 仓储 在 计算 机 磁盘 上 ， 因 此 一 个 程序 可 以 用 另 一 个 程序 作为 其 输入 文件 运 
行 。 第 三 ， 我 们 意识 到 ， 计 算 机 程序 能 将 其 自身 文件 作为 输入 运行 。 到 目前 为 止 ， 
第 二 种 和 第 三 种 活动 的 结果 一 直 是 乱码 ， 但 我 们 将 在 下 一 部 分 看 到 一 个 这 些 把 戏 最 
终结 出 了 一 些 果实 的 迷人 例子 。 
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Microsoft Word 检 查 自身 。 打 开 的 文档 是 文件 WINWORD. EXE ， 即 你 点 击 Microsoft Word 时 实际 运行 的 计算 机 
程序 。 


有 些 程序 不 可 能 存在 


计算 机 在 执行 简单 指令 上 非常 棒 一 一 事实 上 ， 现代 计算 机 每 秒 能 执行 数 十 亿 次 
简单 指令 。 你 也 许 会 想 ， 任 何 任务 都 能 以 简单 、 精 确 的 英语 摘 述 并 写成 一 个 计算 机 
程序 ， 由 计算 机 执行 。 我 在 这 一 部 分 的 目标 是 说 服 你 与 之 相反 的 情况 为 真 : 有 些 简 
单 、 精 确 的 英语 声明 确实 不 可 能 写成 计算 机 程序 。 


一 些 简 单 的 是 一 个 程序 ( Yes-No Program ) 


为 让 这 一 部 分 的 内 容 尽 可 能 简单 ， 我 们 只 会 思考 一 种 非常 无 聊 的 计算 机 程序 。 
我 们 称 它 们 为 “是 一 否 ” 程 序 ， 因 为 这 些 程序 唯一 能 做 的 就 是 弹出 一 个 对 话 框 ， 对 
话 框 的 内 容 要 么 是 单词 “yes” ( 是 ) 或 单词 “no” ( 否 ) 。 比 如 ， 我 在 几 分 钟 前 写 
了 一 个 名 为 ProgramA.exe 的 计算 机 程序 ， 这 个 程序 只 能 生成 下 列 对 话 框 : 






A fre fr 
- | 
PProgramA. exe | || .4 





yes 





注意 看 对 话 框 的 标题 栏 ， 你 能 看 到 生成 这 一 结果 的 程序 名 ProgramA. exe。 


我 还 写 了 另 一 个 名 为 ProgramB .exe 的 计算 机 程序 ， 其 输出 为 “no” 而 
非 “yes” 


:Ek ProgrambB. exe 同 m 区 





ProgramA 和 ProgramB 都 非 单 向 单一 一事 实 上 ， 人 简单 到 不 需要 任何 输入 。 ( 如 
果 它 们 确实 接收 到 了 和 输入， 它们 也 会 忽略 。 ) 换言之 ， 它 们 就 是 那些 不 管 给 予 任何 
输入 ， 每 次 运行 都 表现 相同 的 程序 的 例子 。 


我 还 创造 了 一 个 名 为 SizeChecker .exe 的 程序 ， 它 是 这 些 是 一 否 程序 中 很 有 趣 
的 例子 。 给 该 程序 输入 一 个 文件 ， 如果 文 件 大 于 16 KB， 程序 就 输出 “yes”， 反之 
输出 “no”。 如 果 右 键 点 击 一 个 56 M 的 视频 文件 ( 假设 是 mymovie.mpg ) ， 选 
择 “ 打 开 方 式 ”， 选 取 SizeChecker.exe， 你 就 会 看 到 如 下 输出 : 


-sizeChecker. exe 口 X 


yes 





另外 ， 如 果 我 在 一 条 3KB 的 小 电子 邮件 消息 上 运行 同一 程序 ( 假设 是 
myemail.msg ) ， 输 出 目 然 不 同 : 


sizeChecker. exe ,OX 





因此 ，SizeChecker .exe 也 是 有 时 输出 “yes”， 有 时 输出 “no” 的 是 一 否 程 
序 例子 。 


现在 思考 接 下 来 这 个 稍 有 不 同 的 程序 ， 我 们 称 之 为 NameSize.exe。 这 个 程序 会 
检验 其 输入 文件 的 名 称 ， 如 果 文 件 名 只 有 一 个 字母 长 ，NameSize.exe 输 
出 “yes” ; 反之 输出 “no”。 这 个 程序 会 有 哪些 可 能 的 输出 ? 根据 定义 ， 所 有 输入 
文件 的 名 称 都 至 少 有 一 个 字母 长 ( 人 否则， 文件 残 没 有 名 称 ， 也 融 不 能 在 一 开始 选取 
它 ) 。 因 此 ，NameSize.exe 会 一 直 输 出 “yes” 不管 输入 是 什么 。 


顺便 说 一 句 ， 上 面 提 到 的 几 个 程序 是 用 其 他 程序 作为 输入 时 ， 不 生成 乱码 的 首 
批 程序 例子 。 比 如 ， 文 件 Namesize .exe 的 大 小 只 有 约 8 KB。 因 此 ， 如 果 你 
NameSize.exe 作 为 输入 运行 SizeChecker.exe， 输 出 为 “no” ( 因为 
NameSize.exe 不 超过 16 KB ) 。 我 们 甚至 可 以 让 SizeChecker .exe 在 自身 上 运行 。 
这 次 会 输出 “yes”， 因 为 SizeChecker .exe 要 大 于 16 KB 一 一 事实 上 ， 约 为 12 
KB。 类 似 的 ， 我 们 可 以 让 NameSize .exe 用 自身 作为 输入 运行 ; 由 于 文件 
名 “NameSize.exe” 包 含 不 止 一 个 字母 ， 输 出 应 该 是 “yes”。 不 得 不 承认 ， 我 们 
到 目前 为 止 讨 论 的 所 有 是 一 否 程 序 都 相当 无 聊 ， 但 理解 它们 的 行为 很 重要 ， 请 逐 行 
查看 下 面 的 表 ， 确 保 你 赞同 每 项 输出 。 


AlwaysYes .exe : 一 个 分 析 其 他 程序 的 是 一 否 程 序 


ProgramA.exe address-jist.docX yes 
ProgramA.exe ProgramA.exe yes 
ProgramB.exe address-list.docx no 
ProgramB.exe ProgramA.exe no 
SizeChecker.exe | mymovie.mpg (5OMB) yes 
SizeChecker.exe | myemail.msg (3KB) no 
SizeChecker.exe | NameSize.exe (8KB) no 
SizeChecker.exe | SizeChecker.exe (12KB) yes 
NameSize.exe mymovie.mpg yes 


NameSize.exe ProgramA.exe yes 





NameSize.exe NameSize.exe yes 


一 些 简单 是 一 否 程 序 的 输出 。 注 意 无 视 其 输入 一 直 输 出 “yes” 的 程序 ( 如 ProgramA.exe、 NameSize.exe) 
和 有 时 输出 “no” ( 如 SizeChecker .exe ) 或 一 直 输 出 “no” 的 程序 ( 如 ProgramB .exe ) 之 间 的 区 别 。 


现在 我 们 要 思考 一 些 更 有 趣 的 是 一 否 程 序 。 我 们 将 要 研究 的 第 一 个 程序 名 
为 “AlwaysYes .exe”。 这 个 程序 会 检测 输入 文件 ， 如果 输入 文件 本 身 是 一 个 永远 
输出 “yes” 的 是 一 否 程 序 ， 则 AlwaysYes .exe 会 输出 “yes”。 反 之 ， 
AlwaysYes .exe 的 输出 为 “no”。 注 意 AlwaysYes .exe 能 完美 运行 任何 种 类 的 输入 


文件 。 如 果 你 给 AlwaysYes .exe 的 输入 文件 不 是 可 执行 程序 ( 假设 是 


addresslist.docx ) ， 程 序 会 输出 “no”。 如 果 你 给 AlwaysYes .exe 的 输入 文件 
是 可 执行 程序 ( 假设 是 WINWORD .EXE ) ， 程 序 会 输出 “no”。 如 果 你 用 一 个 是 一 否 
程序 作为 输入 ， 但 这 个 是 一 否 程序 有 时 会 输出 “no”， 那么 AlwaysYes .exe 会 输 

出 “no”。 只 有 在 你 输入 一 个 不 省 输入 是 什么 永远 输出 “yes” 的 是 一 否 程序 时 ， 
AlwaysYes .exe 才 会 输出 “yes”。 到 目前 为 止 ， 我 们 已 经 在 讨论 中 见 了 两 个 这 样 的 
程序 例子 : ProgramA.exe 和 NameSsize.exe。 下 表 总 结 了 AlwaysYes .exe 用 多 个 不 
同 输 入 文件 时 的 输出 ， 包 括 运 行 AlwaysYes .exe 自 身 的 情况 。 正 如 你 在 表 中 最 后 一 
行 所 看 到 的 ，AlwaysYes .exe 在 运行 自身 时 输出 “no”， 因 为 AlwaysYes.exe 人 在 输 
入 一 些 文件 时 会 输出 “no” 。 


AlwaysYes.exe outputs 
输入 文件 
address-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 





AlwaysYes .exe 对 多 种 输入 的 输出 。 只 有 永远 输出 “yes” 的 是 一 否 程序 才 会 让 AlwaysYes .exe 输 
出 "yes” 





住 这 里 就 是 ProgramA .exe 和 NameSize.exe。 


在 表 的 倒数 第 二 行 ， 你 也 许 注意 到 出 现 了 一 个 之 前 未 曾 出 现 的 名 为 Freeze.exe 
的 程序 。Freeze. exe 是 一 款 程 序 ， 是 做 计算 机 程序 最 令 人 讨 大 的 事情 之 一 : 它 
会 “冻结 ”( 不 管 输入 是 什么 ) 。 你 可 能 自己 经 历 过 ， 当 一 个 视频 游戏 或 应 用 程序 
看 起 来 锁定 ( 或 “冻结 ” ) 了 ， 拒 绝对 更 多 输入 做 出 响应 。 在 此 之 后 ， 你 唯一 的 选 
择 融 是 终止 程序 。 如 果 这 还 不 奏效 ， 你 甚至 可 能 需要 关闭 电源 并 重 局 。 ( 有 时 候 在 
使 用 笔记 本 电脑 时 ， 断 电 要 移 除 电池 ! ) 计算 机 程序 冻结 的 原因 多 种 多 样 。 有 时 是 
因为 “ 死 锁 ”， 我 们 在 第 八 章 讨论 过 它 。 在 其 他 情况 中 ， 程 序 也 许 忙 于 执行 一 项 永 


远 不 会 结束 的 计算 一 一 比如 ， 反 复 搜 索 一 块 从 未 真正 存在 的 数据 。 


不 管 怎样 ， 我 们 无 须 理 解 有 关 ; 东 结 程 序 的 细节 。 我 们 只 需 知 道 AlwaysYes .exe 
在 给 出 这 么 一 个 程序 时 该 怎么 做 即 可 。 事 实 上 ，AlwaysYes .exe 的 定义 相当 仔细 ， 
答案 也 很 清楚 : AlwaysYes .exe 在 其 输入 永远 输出 “yes” 时 输出 “yes” ; 反之 则 
输出 “no”。 因 此 ， 当 输入 是 像 Freeze .exe 一 样 的 程序 时 ，AlwaysYes .exe 必 须 输 
出 “no”， 这 也 是 我 们 在 上 图 倒数 第 二 行 看 到 的 结 


YesOnSelf.exe : 一 个 更 简单 的 AlwaysYes .exe 变 体 


你 也 许 已 经 想到 ，AlwaysYes .exe 是 一 个 相当 聪明 、 有 用 的 程序 ， 因 为 它 能 分 
析 其 他 程序 并 预测 它们 的 输出 。 必 须要 承认 的 是 ， 我 并 未 编写 这 一 程序 一 一 我 只 是 
摘 述 了 在 我 必须 编写 它 的 情况 下 ， 它 会 如 何 表现 。 现 在 我 要 开始 摘 述 另 一 个 名 为 
YesOnself .exe 的 程序 。 这 个 程序 和 和 AlwaysYes .exe 类 似 ， 但 更 简单 。 与 输入 文件 
永远 输出 “yes” 时 输出 “yes” 不同 的 是 ， 只 有 输入 文件 在 运行 自身 时 输 
出 “yes”，YesOnSelf.exe 才 会 输出 “yes”; 反之 则 输出 “no”。 换 言 乙 ， 如果 
我 将 SizeChecker .exe 作 为 YesOonSelf.exe 的 输入 ， 那 么 YesOnSelf.exe 会 对 
SizeChecker .exe 进 行 一 些 分 析 ， 以 判定 SizeChecker .exe 在 将 自身 作为 输入 运行 
时 会 输出 什么 。 正 如 我 们 已 经 知道 的 ( 见 上 一 节 的 表 ) ，SizeChecker .exe 运 行 自 
身 的 输出 为 “yes”。 因 此 ，YesOnSelf.exe 运 行 SizeChecker .exe 也 会 输 
出 “yes”。 你 可 以 使 用 相同 的 推理 得 出 YesOnSelf. exe 运行 其 他 多 种 输入 的 结 
注意 ， 如 果 输 入 文件 不 是 一 个 是 一 否 程 序 ， 那 么 YesonSelf .exe 会 自动 输 
出 “no”。 上 表 显 示 了 一 些 YesOnSelf.exe 的 输出 一 一 请 尝试 验证 你 理解 了 表 中 每 
一 行 ， 因 为 在 继续 往 下 读 之 前 ， 理 解 YesonSelf. exe 的 行为 非常 重要 。 


YesOnSelf.exe outputs 


address.-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 
YesOnSelf.exe 





YesOnSelf .exe 运 行 多 个 输入 的 输出 。 唯 一 生成 “yes” 的 输出 就 是 运行 自身 时 输出 “yes” 的 是 一 否 程序 ， 即 
ProgramA.exe、NameSize.exe 和 SizeChecker .exe。 表 中 最 后 一 行 有 点 神秘 ， 因 为 看 起 来 哪 种 输出 都 正确 。 
文字 部 分 细致 地 讨论 了 这 一 情况 。 

我 们 要 多 注意 两 件 和 这 个 相当 有 趣 的 程序 YesonSelf .exe 有 关 的 事情 。 第 一 ， 
看 一 下 上 表 最 后 一 行 。YesOnself .exe 运 行 自 身 的 输出 应 该 是 什么 ? 乎 运 的 是 ， 只 
有 两 种 可 能 性 ， 因 此 我 们 逐个 思考 。 如 果 输 出 是 “yes” 我 们 知道 ( 根据 
YesOnSelf.exe 的 定义 ) ，YesOnSe1lf.exe 在 运行 自身 时 应 输出 “yes”。 这 有 点 


饶舌 ， 但 如 果 你 仔细 推理 ， 你 会 友 现 所 有 事情 都 完美 地 保持 一 致 ， 并 人 铸 引 导 寿 得 


出 “yes” 是 正确 答案 的 结论 。 


但 先 别 急 。 假 如 Yesonself .exe 运 行 自 身 的 输出 是 “no” 呢 ? 这 意味 着 ( 还 是 
根据 YesonSself.exe 的 定义 ) Yesonself .exe 在 运行 自身 时 应 该 输出 “no”。 和 之 
前 一 样 ， 这 一 声明 表现 出 完美 的 一 致 ! 似乎 YesonSelf .exe 能 选择 性 输出 。 只 要 其 
坚持 自己 的 选择 ， 它 的 答案 就 会 正确 。Yesonse1f.exe 行 为 中 的 神秘 自由 很 快 就 会 
成 为 一 个 相当 巨大 的 冰山 之 一 角 ， 但 目前 我 们 还 不 准备 更 深入 探讨 这 一 问题 。 


第 二 ， 我 并 没有 编写 略 显 复杂 的 AlwaysYes .exe 这 一 程序 。 我 所 做 的 只 是 描述 
其 行为 。 然 而 ， 请 注意 ， 如 果 假 设 我 确实 编写 了 AlwaysYes .exe， 那 么 创建 
YesOnself.exe 就 会 很 容易 。 为 什么 ? 因为 YesOnSelf .exe 要 比 AlwaysYes .exe 更 
简单 : Yesonself.exe 只 需 检验 一 个 可 能 的 输入 ， 而 非 所 有 可 能 的 输入 。 


AntiYesOnSelf.exe : YesOnSelf.exe 的 反面 


现在 休息 一 会 儿 ， 记 住 我 们 想 要 到 达 的 目标 。 本 章 的 目标 是 证 明 查 找 崩 演 的 程 
序 不 可 能 存在 。 但 我 们 现在 的 目标 没 这 么 高 尚 。 我 们 只 是 尝试 发 现 一 个 这 种 程序 不 
可 能 存在 的 例子 。 这 将 是 朝向 我 们 最 终 目标 的 一 块 踏 脚 石 ， 因 为 一 旦 了 解 如 何 证 明 
某 个 特定 的 程序 不 可 能 存在 ， 就 可 以 合理 地 直接 将 相同 的 技巧 运用 在 崩 演 寻找 程序 
上 。 好 消息 是 ， 我 们 非常 接近 这 个 踏 脚 石 目标 。 我 们 将 再 多 研究 一 个 是 一 否 程 序 束 
完成 任务 了 。 


新 程序 被 称 为 “AntiYesOnSelf.exe”。 正 如 其 名 字 所 暗示 的 ， 这 个 程序 和 
YesonSelf.exe 非 常 相似 一 一 事实 上 ， 两 个 程序 一 模 一 样 ， 只 是 输出 逆反 了 了。 如果 


YesOnSelf.exe 对 某 个 特定 输入 输出 “yes”， 那么 AntiYesOnSelf.exe 会 对 同一 
输入 输出 “no”。 如 果 Yesonself .exe 对 某 个 输入 输出 “no” ， 
AntiYesonself .exe 会 对 同一 输入 输出 “yes”。 


无 论 输 入 文件 是 否 是 一 个 是 一 否 程 序 ，AntiYesOnSelf .exe 都 会 回答 这 一 


输入 程序 在 目 身 上 运行 时 是 人 否 输 出 “no”? 


对 AntiYesonSelf.exe 行 为 的 简单 描述 。 


出 “yes”， 反之 输出 “no” 吧 。 因 此 ，AntiYesOnSelf.exe 对 于 在 自身 上 运行 时 
输出 “yes” 的 输入 输出 “no”， 反之 输出 “yes”。AntiYesOnSelf.exe 会 对 其 输 
入 问 下 列 问 题 : “输入 文件 在 自身 上 运行 时 是 不 是 不 会 输出 ‘yes'” ?” 


不 得 不 承认 ， 对 AntiYesOonself.exe 的 摘 述 又 是 个 绕口令 。 你 也 许 会 想 ， 换 种 
说 法 “输入 文件 在 上 自身 上 运行 时 是 否 输出 “no ” ”要 简单 些 。 为 什么 这 么 问 不 正 
确 ? 为 什么 我 们 要 在 “不 输出 ‘yes”” 上 喝 唆 ， 而 不 用 更 简单 的 声明 “ 输 
出 “no ”” ? 答案 是 程序 有 时 会 做 输出 “yes” 或 “no” 之 外 的 事情 。 因 此 ， 如果 
菏 人 告诉 我 们 ， 某 个 特定 程序 不 输出 “yes” 我 们 不 能 目 动 得 出 结论 它 会 输 
出 “no”。 上 比如 ， 程序 可 能 输出 乱码 ， 甚 至 冻结 。 不 过 ， 我 们 可 以 对 一 种 特殊 情况 
得 出 一 个 更 强 的 结论 : 如 果 我 们 预 和 元 得 知 一 个 程序 为 是 一 否 程序 ， 那 么 我 们 融 知 道 
这 个 程序 永远 不 会 冻结 或 生成 乱码 一 一 程序 永远 会 以 输出 “yes” 或 “no” 结 束 。 
因此 ， 对 于 是 一 否 程 序 而 言 ， 在 “不 输出 “yes”” 上 喝 唆 相当 于 更 简单 的 声明 “ 输 


出 “no [Lh 


因此 ， 最 终 我 们 能 对 AntiYesonSelf .exe 的 行为 给 出 非常 简单 的 描述 。 不 管 输 
入 文件 是 不 是 一 个 是 一 否 程序 ，AntiYesOnSelf .exe 都 会 回答 这 个 问题 : “输入 程 
序 在 自身 上 运行 时 是 否 输出 ‘no”? ”对 AntiYesOnSelf.exe 行 为 的 这 一 阐释 在 后 
面 非常 重要 ， 所 以 我 在 上 框 中 列 出 了 它 。 


考虑 到 我 们 在 分 析 YesOnself.exe 上 所 做 的 工作 ， 为 AntiYesonSself.exe 制 作 
一 张 输出 表 变 得 格外 容易 。 事 实 上 ， 我 们 可 以 直接 复制 上 文 YesOnSelf .exe 
outputs 的 表 ， 将 所 有 “yes” 输 出 改 成 “no”， 反 之 亦 然 。 这 么 做 得 到 的 结果 就 是 
上 面 这 张 表 。 和 前 面 一 样 ， 最 好 逐条 审视 表 中 每 一 行 ， 确 认 你 同意 输出 栏 中 每 一 
项 。 当 输入 文件 为 是 一 否 程 序 时 ， 你 可 以 用 前 页 框 中 的 简单 前 释 ， 而 非 弄 懂 更 早 之 
前 给 出 的 更 复杂 的 解释 。 


AntiYesOnSelf.exe outputs 
输入 文件 
address.-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 

ProgramB.exe 

NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 
AntiYesOnSelf.exe 





AntiYesOnSelf .exe 运 行 多 个 输入 的 输出 。 根 据 定 义 ，AntiYesOnSelf .exe 会 生成 YesonSelf .exe 相 反 的 答 
案 ， 因 此 这 张 表 一 一 除了 最 后 一 行 一 一 和 YesonSelf.exe 的 一 样 ， 只 是 “yes” 输 出 换 成 了 “no”， 反 之 亦 
然 。 如 文中 讨论 的 一 样 ， 判 定 最 后 一 行 极 其 困难 。 


你 能 从 表 中 最 后 一 行 看 出 ， 当 我 们 尝试 计算 AntiYesOnself.exe 人 在 自身 上 运行 
时 的 输出 时 ， 一 个 问题 产生 了 。 为 帮助 我 们 分 析 这 一 问题 ， 让 我 们 进一步 简化 
AntiYesOnSelf.exe 在 上 页 框 中 的 描述 : 与 其 考虑 将 所 有 可 能 的 是 一 否 程序 当 作 输 
入 ， 我 们 将 集中 精力 于 AntiYesonSelf .exe 将 上 自身 作为 输入 运行 时 友 生 的 情况 。 
此 ， 框 中 以 斜体 表示 的 问题 “输入 程序 会 …” 可 以 转述 为 “AntiYesOnSelf.exe 


会 ……” 一 一 因为 输入 程序 即 AntiYesOnself.exe。 这 是 我 们 需要 的 最 终 曾 释 ， 
此 它 也 在 下 面 框 中 展示 。 


现在 我 们 准备 好 得 出 AntiYesonself.exe 在 自身 上 运行 的 输出 。 输 出 存在 两 种 
可 能 性 ( “yes” 和 “no” ) ， 因 此 完成 这 一 问题 应 该 不 会 太 难 。 我 们 将 逐一 处 理 每 
个 例子 。 


无 论 输 入 文件 是 否 是 一 个 是 一 否 程 序 ，AntiYesOnSelf .exe 都 会 回答 这 一 


AntiYesOnSelf.exe 在 自身 上 运行 时 是 否 输 出 “no”? 


当 AntiYesonSelf.exe 将 自身 作为 输入 时 对 其 行为 的 简单 描述 。 注 意 ， 这 个 框 只 是 上 文中 框 的 简化 版 ， 专 门 针 
对 输入 文件 为 AntiYesonSe1lf. exe 的 例子 。 


例 1 ( 输出 为 “yes” ) : 如 果 输 出 为 “yes”“， 那 么 对 框 中 粗 体 问题 的 答案 残 
是 “no”。 但 根据 定义 ， 粗 体 问 题 的 答案 是 AntiYesonself .exe 的 输出 ( 册 读 一 遍 
框 中 内 容 以 让 自己 确信 ) 一 一 因此 ， 输出 必 为 “no”。 忆 之 ， 我们 刚刚 证 明了 如 果 
输出 为 “yes”， 那 么 输出 为 “no”。 不 可 能 ! 事实 上 ， 我 们 遇 到 了 一 处 矛盾 。 ( 如 
果 你 对 反 证 法 技巧 不 熟悉 ， 现 在 是 回顾 本 章 先前 对 这 一 主题 讨论 的 好 时 机 。 我 们 会 
在 下 面 几 页 反复 用 到 这 一 技巧 。 ) 因为 我 们 得 到 了 一 处 矛盾 ， 我们 对 输出 
是 “yes” 的 假设 必然 不 成 立 。 我 们 已 经 证 明 ，AntiYesonself.exe 在 自身 上 运行 
时 的 输出 不 可 能 为 “yes”。 让 我 们 转向 另 一 种 可 能 性 。 


例 2 ( 输出 为 “no” ) : 如 果 输 出 为 “no”， 那 么 对 框 中 粗 体 问题 的 答案 就 
是 “yes”。 但 和 例 1 一 样 ， 根 据 定义 ， 粗 体 问题 的 答案 是 AntiYesonSelf .exe 的 输 
出 一 一 因此 ,输出 必须 为 “yes”。 换 言 之 ， 我 们 刚 风 证明 了 如 果 输 出 为 “no”， 


那么 输出 为 “yes”。 和 上 例 一 样 ， 我 们 得 到 了 一 处 矛盾 ， 因 此 我 们 对 输出 
是 “no” 的 假设 必然 不 成 立 。 我 们 已 经 证 明 ，AntiYesonselLf.exe 在 自身 上 运行 时 
的 输出 不 可 能 为 “no”。 


现在 怎么 办 ? 我 们 已 经 排除 了 AntiYesonse1f.exe 在 自身 上 运行 时 仅 有 的 两 种 
可 能 输出 。 这 同样 是 一 个 矛盾 : AntiYesOnSelf .exe 被 定义 为 一 个 是 一 否 问 题 
一 个 永远 以 生成 “是 ”或 “ 否 ” 两 个 输出 之 一 结束 的 程序 。 然 而 ， 我 们 刚刚 展示 了 
一 个 特殊 输入 ， 而 AntiYesonSelf .exe 用 这 个 输入 运行 并 不 生成 任 一 上 述 输 出 ! 这 
一 矛盾 暗示 我 们 最 初 的 假设 为 假 : 因此 ， 并 不 可 能 编写 一 个 行为 和 
AntiYesOonSelf. exe 相像 的 是 一 否 软件 。 





现在 你 应 该 知道 了 ， 为 什么 我 非常 小 心地 坦然 承认 自己 并 未 编写 过 
AlwaysYes .exe、Yes0n-Self.exe 或 AntiYesOnSelf.exe 中 任何 一 个 。 我 所 做 的 
只 是 摘 述 如 果 我 确实 编写 了 它们 ， 这 些 程序 会 如 何 表现 。 在 上 一 段 中 ， 我 们 使 用 了 
肥 证 法 展示 AntiYesOnSelf.exe 不 可 能 存在 。 但 我 们 能 证 明 更 多 : AlwaysYes .exe 
和 YesonSelf.exe 也 不 可 能 存在 ! 为 什么 ? 你 应 该 能 猿 到 ， 关 键 工具 还 是 反 证 法 。 
回忆 我 们 在 上 文 讨论 如 果 AlwaysYes .exe 存 在 时 的 情景 ， 对 讨论 过 程 稍 作 修 改 并 得 
出 YesonSelf.exe 是 否 存 在 的 答案 应 该 会 很 容易 。 和 而 如 果 YesOnSelf .exe 和 存 住 ，, 那 
么 得 出 AntiYesOnSelf .exe 是 否 存 在 的 答案 也 会 极其 容易 ， 因 为 我 们 只 须 逆 转 输出 
即 可 (将 “no” 换 成 “yes”， 反之 亦 然 ) 。 忌 之， 如 果 AlwaysYes .exe 仔 企 ， 那 
么 AntiYesonself.exe 也 存在 。 但 我 们 已 经 知道 AntiYesOnSelf.exe 不 可 能 存在 ， 
因此 AlwaysYes .exe 也 不 可 能 存在 。 同 样 的 论点 也 显示 YesonSelf .exe 不 可 能 存 
在 。 


记 住 ， 这 整个 部 分 只 是 一 块 踏 脚 石 ， 我 们 的 最 终 目 标 是 证 明 衣 并 寻找 程序 不 可 


能 仔 在 。 本 部 分 更 适中 的 目标 是 举 一 些 不 可 能 存在 的 程序 的 例子 。 我 们 已 经 通过 检 
验 三 个 不 同 的 程序 达到 了 这 一 目标 ， 那 三 个 程序 没有 一 个 可 能 存在 。 在 这 三 个 程序 
中 ， 最 有 趣 的 要 数 AlwaysYes .exe。 另 两 个 则 相当 乏味 ， 这 两 个 例子 主要 j 进 以 自身 
为 输入 运行 的 程序 的 行为 。 另 一 方面 ,AlwaysYes .exe 是 个 非常 强大 的 程序 ， 因 为 
只 要 它 和 存 任 ， 融 能 分 析 其 他 任 一 程序 ， 并 告诉 我 们 那个 程序 是 人 否 永 远 会 输 
出 “yes”。 但 我 们 现在 已 经 知道 ， 没 人 能 编写 出 如 此 聪明 、 有 用 的 程序 。 


友 现 朋 演 的 不 可 能 性 


我 们 终于 准备 好 开始 探讨 一 个 程序 是 否 存 在 的 证 据 ， 这 个 程序 能 成 功 分 析 其 他 
程序 并 判定 它们 是 否 会 朋 溃 : 具体 来 说 ， 我 们 要 证 明 这 样 一 个 程序 不 可 能 存在 。 在 
读 完 上 面 几 页 后 ， 你 也 许 猜 到 了 我 们 会 用 反 证 法 。 我 们 一 开始 会 假设 存在 这 样 一 个 
程序 : 有 些 名 为 CanCrash .exe 的 程序 能 分 析 其 他 程序 并 判定 它们 是 否 会 月 演 。 在 对 
CanCrash .exe 做 一 些 奇 怪 、 神 秘 、 令 人 高 兴 的 事情 后 ， 我 们 会 碰 到 一 处 矛盾 。 


TroubleMaker, exe 


TroubleMaker.exe has encountered a problem and needs to 和 
cilose. We are sorry for the inconvenience. \ 


fyou were inthe middle of something. the informeation you were working on might be 
lost. 


Please tell Microsoft abouvt this problem. 


We have created an error reportthat you can send to us, ‘We willtreatthis 
report as confidential and enonymous. 


To see whaet deta this errorreport contains, Tlickhere, 
Debug | Send Error Report | | DontSend | 


某 种 操作 系统 崩溃 后 的 结果 。 不 同 的 操作 系统 以 不 同方 式 处 理 崩溃 ， 但 我 们 在 遇 到 崩溃 时 都 知道 。 这 个 故意 编写 
出 来 的 TroubleMaker .exe 会 导致 崩溃 ,证明 故意 导致 裔 溃 很 容易 实现 。 





证 明 过 程 中 有 一 步 要 求 我 们 更 改 一 个 运行 民 好 的 程序 ， 让 程序 在 特定 情况 下 月 
演 。 我 们 如 何 做 到 这 件 事 ”事实 上 ， 这 件 事 很 容易 。 程 序 衣 省 的 原因 很 多 。 其 中 一 
种 较为 常见 的 原因 是 程序 尝试 除 以 零 。 在 数学 中 ， 用 任何 数 除 以 零 得 到 的 结果 都 
是 “未 定义 ” ( undefined ) 。 在 计算 机 中 ，“ 未 定义 ”是 个 严重 错误 ， 程 序 不 能 
继续 融会 月 溃 。 因 此 ， 让 程序 故意 衣 涡 的 一 种 简单 方法 是 ， 在 程序 中 插入 几 段 会 让 
程序 除 以 零 的 多 余 指 令 。 事 实 上 ， 这 也 正 是 我 在 上 图 列举 TroubleMaker .exe 例 子 的 


现在 我 们 开始 证 明 骨 溃 发 现 程序 不 可 能 性 的 主要 过 程 。 下 图 总 结 了 论证 法 。 我 
们 一 开始 假设 存在 是 一 否 程序 CanCrash .exe， 如 果 作 为 输入 的 程序 会 在 某 种 情况 下 
朋 汗 ，CanCrash .exe 束 会 输出 “yes” 并 结束 ; 如 果 输 入 程序 永 不 会 月 江 , 则 
CanCrash .exe 就 会 输出 “no” 并 结束 。 


程序 行为 


- 如 果 输 入 能 崩溃 ， 输 出 yes 
CanCrash.exe - 如 果 输 入 从 不 崩 汕 ， 输 出 no 


| 


- 如 未 棉 人 能 朋 闹 ， 朋 省 


CanCrashWeird.exe 如 果 输 入 从 不 朋 涡 ， 输 出 nio 


| 


如 果 输 入 在 自身 上 运行 时 关注， 崩 i 


CrashOnSelf.exe 
- 如 果 输 入 在 自身 上 运行 时 不 月 闹 ， 
输出 no 


- 如 果 输 入 在 自身 上 运行 时 崩溃 ， 输 出 Yes 


AntiCrashOnSelf.exe : 
- 如 果 输 入 在 自身 上 运行 时 不 崩溃， 朋 济 





一 条 证 明 四 个 骨 溃 侦 测 程序 不 可 能 存在 的 序列 。 最 后 一 个 程序 AntiCrashonself.exe 很 显然 不 可 能 ， 因 为 它 在 
自身 上 运行 时 会 产生 矛盾 。 然 而 ， 每 个 程序 都 能 通过 对 上 一 个 程序 作出 小 改变 轻易 得 到 ( 如 箭头 所 示 ) 。 因 此 ， 
这 四 个 程序 都 不 可 能 存在 。 


现在 我 们 对 CanCrash .exe 做 些 诡异 的 改变 : 和 输出 “yes” 不 同 的 是 ， 我 们 会 
让 CanCrash .exe 朋 演 。 ( 正如 上 面 所 讨论 的 ， 很 容易 通过 故意 除 以 零 做 到 这 一 
点 。 ) 让 我 们 称 改 变 后 的 程序 为 CanCrashweird .exe。 因 此 ， 如 果 输 入 会 骨 溃 ， 那 
么 CanCrashWeird.exe 这 个 程序 也 会 故意 朋 溃 ( 形成 的 对 话 框 外 观 类 似 于 上 图 ) ， 


如 果 输 入 永 不 会 朋 溃 ， 则 CanCrashwWeird.exe 会 输出 “no”。 


图 中 显示 的 下 一 步 是 将 CanCrashweird .exe 转 换 成 一 个 更 模糊 的 程序 ， 我 们 将 
其 称 为 CrashonSelf .exe。 这 个 程序 和 .上 一 部 分 的 YesOnSelf.exe 一 样 ， 只 关注 程 
序 在 将 目 身 作为 输入 时 运行 的 表现 。 特 别 要 说 明 的 是 ,CrashonSelf.exe 会 检测 其 
输入 程序 ， 如 果 输 入 程序 能 在 自身 上 运行 ， 则 CrashonSelf .exe 会 故意 朋 溃 。 反 
之 ，CrashonSelf.exe 会 输出 “no”。 注 意 ， 从 CanCrashWeird.exe 得 到 
Crashonself.exe 很 容易 : 这 一 过 程 和 我 们 在 第 上 文 讨论 的 将 AlwaysYes .exe 转 换 
成 YesonSelf.exe 的 过 程 一 样 。 


中 四 个 程序 序列 的 最 后 一 步 就 是 将 CrashOonSelf .exe 转 换 成 
AntiCrashOonSelf.exe。 这 简单 的 一 步 违 背 了 程序 的 行为 : 如 果 其 输入 在 自身 上 运 
行 时 月 演 ,AntiCrashOonSelf.exe 输 出 “yes”。 但 如 果 输 入 在 自身 上 运行 时 不 朋 


溃 ，AntiCcrashonse1f.exe 就 会 故意 朋 溃 。 


现在 我 们 抵达 了 生成 一 处 矛盾 的 地 方 。AntiCrashonSelf.exe 将 自己 作为 输入 
运行 时 会 输出 什么 ? 根据 其 自身 的 摘 述 ， 如 果 输 入 朋 溃 ，AntiCrashonSself.exe 束 
会 输出 “yes”。 ( 矛盾， 因为 如 果 AntiCrashonSelf.exe 已 经 朋 江 ， 它 就 不 能 成 
功 输出 “yes” 并 结束 。 ) 还 是 根据 其 自身 的 摘 述 ,如 果 输 入 不 衣 溃 ， 则 
这 一 点 也 目 相 矛 盾 。 我 们 已 经 排除 了 
AntiCrashonSelf.exe 两 种 可 能 的 行为 ， 这 也 意味 着 AntiCrashOonSelf.exe 一 开 


AntiCcrashonself.exe 应 朋 演 





台 珊 不 可 能 仓 任 。 


最 后 ， 我 们 可 以 用 上 页 图 中 显示 的 转换 链 证 明 CanCrash.exe 也 不 可 能 存在。 如 
果 它 确实 存在 ， 我 们 就 能 按 图 中 箭头 所 示 将 其 转换 成 AntiCcrashonSelf.exe 一 一 但 
我 们 已 经 证 明 AntiCrashonSelf. exe 不 可 能 人 存在。 这 是 矛盾 之 处 ， 因 此 我 们 假设 
CanCrash .exe 存 在 必 为 假 。 


孚 机 问题 和 不 可 判定 性 


这 就 对 我 们 经 历 计算 机 科学 中 最 成 熟 、 最 伟大 的 问题 之 一 进行 了 总 结 。 我 们 已 
经 证 明 ， 绝 对 不 可 能 有 人 能 编写 出 一 个 像 CanCrash.exe 这 样 的 程序 : 分 析 其 他 程序 
并 辨认 程序 中 可 能 导致 其 骨 溃 的 所 有 可 能 漏洞 。 


事实 上 ， 当 理论 计算 机 科学 创始 人 阿 三 .图 灵 首 次 于 26 世 纪 36 年 代 证 明 一 个 像 这 
样 的 结果 时 ， 他 对 漏洞 或 朋 省 完全 不 关心。 毕竟 ， 当 时 还 没有 电子 计算 机 。 相 反 ， 
图 灵 对 一 个 已 有 计算 机 程序 最 终 能 否 生成 答案 很 感 兴 趣 。 一 个 联系 紧密 的 问题 是 : 
一 个 已 有 计算 机 程序 是 否 会 结束 一 一 或 者 说 它 是 否 会 永远 计算 下 去 ， 而 不 生成 一 个 
答案 ? 这 个 已 有 计算 机 程序 最 终 是 否 会 结束 或 “停止 ”的 问题 束 是 著名 的 停机 问题 
( the halting problem ) 。 图 灵 的 伟大 成 就 在 于 ， 计 算 机 科学 家 称 图 灵 从 停机 问 
题 得 到 的 变 体 问题 “不 可 判定 ”。 不 可 判定 问题 指 不 能 通过 编写 计算 机 程序 解决 的 
问题 。 因 此 ， 另 一 种 表述 图 灵 结 果 的 方式 是 : 你 不 能 编写 一 个 名 为 
AlwaysHalts .exe， 输 入 永远 停止 时 输出 “yes”， 反 之 输出 “no” 的 计算 机 程 
序 。 





从 这 个 角度 看 ， 停 机 问题 和 本 章 处 理 的 问题 非常 相似 ， 我 们 可 以 把 本 章 处 理 的 


问题 称 为 朋 溃 问题 。 我 们 证 明了 裔 省 问 题 的 不 可 判定 性 ， 但 你 基本 上 可 以 使 用 相同 
反 巧 证 明 停 机 问题 也 不 可 判定 。 而 且 ， 正 如 你 所 猜测 的 ， 计 算 机 科学 还 有 许多 其 他 
问题 不 可 判定 。 


不 可 能 程序 的 应 用 有 哪些 ? 


我 收录 这 一 章 是 故意 作为 先前 章节 的 对 照 。 前 面 每 一 章 都 捍卫 了 一 个 绝 佳 思 
想 ， 每 个 思想 都 会 让 计算 机 更 强大 ， 对 人 类 更 有 用 。 在 本 章 ， 我 们 见识 了 计算 机 最 
基础 的 限制 之 一 。 我 们 见识 到 ， 有 些 问 题 根本 不 可 能 通过 计算 机 解决 ， 不 管 计算 机 
有 多 强大 或 人 类 程序 员 有 多 聪明 。 这 些 不 可 判定 问题 包括 潜在 的 有 用 任务 ， 如 分 析 
其 他 程序 以 友 现 它们 是 否 会 月 省 。 


这 一 奇怪 的 事实 一 一 有 时 甚至 先 验 一 一 有 什么 影响 ? 不 可 判定 问题 的 存在 会 影 
啊 我 们 在 实际 中 使 用 计算 机 吗 ? 人 类 在 人 脑 中 进行 的 计算 呢 ， 人 脑 也 不 能 处 理 不 可 


判定 问题 吗 ? 


不 可 判定 性 和 计算 机 使 用 


让 我 们 诈 乞 来 探讨 一 下 不 可 判定 性 对 计算 机 使 用 的 实际 影响 。 答 案 很 简短 : 
不 ， 不 可 判定 性 对 计算 的 日 常 实践 没有 太 大 影响 。 原 因 有 两 个 。 第 一 ， 不 可 判定 性 
只 关注 计算 机 程序 能 否 生成 答案 ， 并 不 考虑 我 们 需要 等 答案 多 久 。 然 而 ， 在 实践 
中 ， 效 率 问题 ( 也 融 是 你 必须 等 答案 多 久 ) 极其 重要 。 有 许多 可 判定 任务 还 没有 高 
效 算法 。 其 中 最 著名 的 要 数 旅行 商 问 题 ( Traveling Salesman Problem ) ， 简 称 
为 TSP。TSP 用 现代 术语 表述 如 下 : 假设 你 必须 飞 往 很 多 城市 ( 假设 是 26 个 或 36 个 或 


166 个 ) 。 你 应 该 及 用 哪 种 顺序 访问 城市 才能 让 飞行 费用 最 少 ? 我 们 知道 这 个 问题 是 
可 判定 的 一 一 事实 上 ， 只 要 少量 经 验 的 新 手 程序 员 残 能 编写 一 个 计算 机 程序 寻找 通 
过 这 些 城 市 最 便宜 的 航线 。 问 题 是 程序 可 能 要 花 数 百 万 年 时 间 来 完成 这 项 工作 。 在 
实践 中 ， 这 并 不 够 好 。 因 此 ， 间 题 可 判定 这 一 事实 并 不 意味 着 我 们 可 以 在 实际 中 解 


决 它 。 


不 可 判定 性 实际 效果 有 限 的 第 二 个 原因 是 : 我 们 在 大 部 分 时 间 里 都 能 很 好 地 解 
决 不 可 判定 问题 。 本 章 的 主要 例子 就 对 此 进行 了 很 好 的 展示 。 我 们 按照 一 个 详尽 的 
论证 过 程 证 明 ， 没 有 计算 机 程序 能 友 现 所 有 计算 机 程序 中 所 有 的 漏洞 。 但 我 们 仍然 
能 尝试 编写 一 个 漏洞 友 现 程 序 ， 希 望 其 友 现 大 多 数 计 算 机 程序 中 绝 大 多 数 汤 洞 。 事 
实 上 ， 这 是 计算 机 科学 中 一 个 非常 活跃 的 研究 领域 。 我 们 在 过 去 几 十 年 所 见 到 的 软 
件 可 靠 性 提升 部 分 得 荔 于 月 省 发现 程序 的 进步 。 因 此 ， 通 弟 能 为 不 可 判定 问题 找到 
非常 有 用 的 部 分 解决 方案 。 


不 可 判定 性 和 人 脑 


不 可 判定 问题 的 仓 在 对 人 类 思考 过 程 有 影响 吗 ? 这 一 问题 会 直接 引出 哲学 中 一 
些 高 深 的 经 典 问题 ， 如 意识 的 定义 ， 理 智和 大 脑 的 区 别 等 。 不 管 怎样 ， 我 们 对 一 件 
事 很 清楚 : 如 果 你 相信 人 脑 在 原则 上 能 被 计算 机 模拟 ， 那 么 人 脑 束 会 和 计算 机 受 相 
同 的 限制 。 损 言 乙 ， 会 存在 人 脑 无 法 解决 的 问题 一 一 个 管 这 个 人 脑 有 多 职 明 或 经 过 
多 么 展 好 的 训练 。 这 一 结论 紧 随 本 章 主 要 答案 之 后 出 现 。 如 果 人 脑 能 被 计算 机 程序 
模拟 ， 而 人 脑 能 解决 不 可 判定 问题 ， 那 么 我 们 也 可 以 用 计算 机 模拟 人 脑 解决 不 可 判 
这 与 计算 机 程序 不 能 解决 不 可 判定 问题 的 事实 相 矛 盾 。 








定 问题 


当然 ， 我 们 是 否 能 让 计算 机 精确 模拟 人 脑 的 间 题 还 远 未 解决。 从 科学 观点 来 
看 ,人 脑 和 计算 机 之 间 似 乎 没有 什么 基本 壁 付 ， 因 为 化 学 和 电子 信号 在 人 脑 中 传输 


的 低级 细节 很 好 理解 。 另 外 ， 多 种 哲学 论据 暗示 ， 人 脑 创 造 “ 理 智 ”的 物理 过 程 在 
性 质 上 与 计算 机 能 模拟 的 任何 物理 系统 有 所 不 同 。 这 些 哲 学 论据 形式 多 样 ， 基 于 我 
们 的 目 省 和 直 沉 能力， 或 对 灵性 的 追求 。 


这 个 问题 与 阿兰 :图 灵 在 1937 年 发 表 的 有 关 不 可 判定 性 的 论文 之 间 有 一 段 迷 人 的 
联系 。 这 篇 论文 被 许多 人 视 为 让 计算 机 成 为 一 门 学 科 的 基石 。 不 邓 的 是 ， 这 篇 论文 
的 标题 相当 模糊 : 标题 以 听 起 来 很 乏味 的 短语 “关于 可 计算 数字 .…” ( On 
computable ”numbers ) 开头 ， 结 尾 却 以 “.…… 及 判定 问题 的 应 用 ′ (with an 
application to the Entscheidungsproblem ) 夏 然而 止 。 ( 我 们 在 这 里 不 会 集 
中 讨论 标题 的 第 二 部 分 ! ) 在 26 世 纪 36 年 代 ，“computer” ( 计算 机 ) 这 个 单词 的 
意义 和 现在 完全 不 同 。 对 于 图 灵 来 这， 一 台 “ 计 算 机 ” 融 是 一 个 人 ， 用 铅笔 和 纸 做 
些 算术 。 因 此 ， 图 灵 论 文 标题 中 的 “可 计算 数字 ”原则 上 是 能 锌 人 计算 的 数字 。 但 
为 辅助 他 的 论据 ， 图 灵 描述 了 一 种 同样 能 计算 的 特殊 机 器 ( 对 于 图 灵 而 言 ， 一 
人 台 “ 机 器 ”就 是 我 们 所 称 的 “计算 机 ” ) 。 论 文部 分 内 容 引 在 展示 特定 计算 不 可 能 
由 这 些 机 器 执行 一 一 这 残 是 我 们 已 经 细致 讨论 过 的 不 可 判定 性 论证 。 但 同一 论文 的 
另 一 部 分 提出 了 一 个 细致 且 有 说 服 力 的 论据 ,图 灵 的 “机 器 ” ( 请 当 作 计算 机 来 
读 ) 能 执行 由 “计算 机 ” ( 请 当 作 人 来 读 ) 执行 的 任何 计算 。 


你 也 许 开始 能 理解 为 何 夸 大 叙述 图 灵 “ 关 于 可 计算 数字 .……” 论文 潜在 本 质 很 困 
难 了 。 这 篇 论文 不 仅 定 义 及 解决 了 计算 机 科学 中 一 些 最 基本 的 问题 ， 还 深入 哲学 领 
域 ， 举 出 了 一 个 具有 说 服 力 的 例子 ， 表明 人 类 思考 过 程 可 以 被 计算 机 模拟 。 ( 记 
住 ， 当 时 计算 机 还 没有 被 友 明 ! ) 在 现代 哲学 用 语 中 ， 认 为 所 有 计算 机 ( 还 有 可 能 
包括 人 ) 具有 相同 计算 能 力 的 想法 以 邱 奇 一 图 灵 论题 ( Church-Turing thesis ) 
而 闻名 。 这 一 名 称 同 时 和 癌 阿 三 .图 灵 和 阿 隆 佐 . 即 奇 致 敬 。 阿 隆 佐 . 邱 奇 ( 之 前 提 到 过 ) 
单独 帮 现 了 不 可 判定 问题 的 存在 。 事 实 上 ， 邵 奇 比 图 灵 早 几 个 月 发 表 自 己 的 成 果 ， 


但 抒 奇 的 公式 更 为 抽象 ， 且 并 未 详尽 提 及 由 机 器 执行 的 计算 。 


对 6 奇 一 图 灵 论 题 有 效 性 的 争论 不 断 升温 。 但 如 果 按照 最 强 版 本 的 印 奇 一 图 灵 
论题 所 持 有 的 观点 ， 那 么 并 非 只 有 计算 机 向 不 可 判定 性 限制 俯首 称臣 。 同 样 的 限制 
不 仅 适 用 于 我 们 指 尖 的 精灵 ， 而 且 也 适用 于 精灵 背后 的 精灵 : 我 们 的 理智 。 


第 十 一 章 
结论 


一 一 更 多 在 你 指 尖 的 精灵 


我 们 只 能 望 见 前 方 不 远 处 ， 但 我 们 能 看 到 有 许多 事情 需要 完成 。 





《计算 机 器 与 智能 》 ，1956 年 


很 幸运 ， 我 于 1991 年 参加 了 伟大 理论 物理 学 家 史蒂芬 .霍金 ( Stephen 
Hawking ) 举行 的 公开 演讲 。 在 这 场 名 为 “宇宙 未 来 ” (The “Future of the 
Universe ) 的 宏大 演讲 期 间 ,霍金 信心 满 满 地 预测 ， 宇 宙 至 少 还 会 膨胀 168 亿 年 。 
他 还 扮 着 苦 相 补充 道 : “ 当 我 的 观点 被 证 明 错 误 时 ， 我 应 该 不 在 了 。” 对 我 来 说 ， 
不 幸 的 是 ， 有关 计算 机 科学 的 预测 并 没有 宇宙 学 家 能 得 到 的 168 亿 年 保质 期 。 我 做 的 
任何 预测 都 有 可 能 在 有 生 之 年 被 反驳 。 


但 这 不 应 该 阻止 我 们 思考 计算 机 伟大 思想 的 未 来 。 我 们 探索 过 的 伟大 算法 会 永 
远 “ 伟 大 ” 吗 ? 其 中 一 些 会 过 时 吗 ? 会 有 新 的 伟大 算法 出 现 吗 ? 要 回答 这 些 问 题 ， 
我 们 需要 更 多 地 像 历 史学 家 而 非 宇宙 学 家 一 样 思 考 。 这 让 我 想起 了 许多 年 前 的 另 一 
次 经 验 ， 在 电视 中 观看 由 备 受 争议 的 牛津 知名 历史 学 家 A.] .P. 泰 勒 所 做 的 一 些 演 
讲 。 在 那个 系列 演讲 末尾 ， 泰 勒 直接 回答 了 会 否 有 第 三 次 世界 大 战 的 问题 。 他 认为 
答案 为 “是 ”， 因 为 人 类 很 有 可 能 “在 未 来 像 过 去 所 做 过 的 一 样 行事 ”。 


因此 ， 让 我 们 跟随 A:]P- 泰 勒 的 领导 ， 向 历史 的 宏大 鞠躬 。 本 书 描述 的 伟大 算法 
得 自 贯 穿 26 世 纪 的 事件 及 发 明 。 似 乎 假设 21 世 纪 以 类 似 步伐 前 进 很 合理 ， 每 隔 26 或 
36 年 就 有 一 类 新 算法 针 圳 头角。 在 一 些 情况 中 ， 这 些 算法 会 具备 惊人 的 原创 性 ， 是 
科学 家 们 梦 亲 以 求 的 全 新 技术 。 公 钥 加 密 和 相关 的 数字 签名 算法 就 是 这 类 算法 的 例 
子 。 在 其 他 情况 中 ， 算 法 也 许 已 经 在 实验 社区 存在 了 一 段 时 间 ， 等 待 借助 合适 的 新 
技术 潮流 让 它们 得 到 广泛 应 用 。 索 引 和 排名 的 搜索 算法 就 属于 这 类 : 类 似 算 法 在 名 
为 信息 检索 的 领域 存在 了 多 年 ， 但 网 络 搜索 现象 让 这 些 算法 变 得 “伟大 ”一 一 在 普 
通 计 算 机 用 户 日 常 使 用 的 意义 上 。 当 然 ， 这 些 算 法 为 自己 的 新 应 用 而 进化 ; 
PageRank 算 法 瓯 是 个 好 例子 。 


注意 ， 新 技术 的 出 现 并 不 一 定 会 导致 新 算法 产生 。 想 想 笔 记 本 电脑 在 26 世 纪 86 


年 代 及 96 年 代 的 显著 增长 。 通 过 极 大 增加 可 访问 性 和 便携 性 ， 笔 记 本 电脑 革命 化 了 
人 们 使 用 计算 机 的 方式 。 笔 记 本 电脑 还 引 友 了 多 个 领域 极其 巨大 的 进步 ， 如 屏幕 技 
术 和 电池 管理 技术 。 但 照 我 看 ， 目 笔记 本 电脑 革命 以 来 再 没有 伟大 算法 出 现 。 相 
反 ， 互联 网 的 出 现 束 是 一 项 导致 许多 伟大 算法 出 现 的 技术 : 互联 网 通过 提供 搜索 引 
擎 能 存 在 的 基础 架构 ， 让 索引 和 排名 算法 得 以 距 身 伟大 算法 行列 。 


因此 ， 尽 管 技术 革新 不 可 置疑 的 加 速 继续 在 我 们 周围 出 现 ， 但 并 不 能 保证 新 的 
伟大 算法 的 出 现 。 事 实 上 ， 相 反方 同上 有 一 种 强大 的 历史 力量 在 作用 ， 上 暗示 算法 创 
新 的 步伐 将 在 未 来 减 瘟 。 我 说 的 是 计算 机 科学 作为 一 门 科学 学 科 开 始 成 熟 。 同 物理 
学 、 数 学 和 化 学 等 领域 相 比 ， 计 算 机 科学 非常 年 轻 : 它 于 28 世 纪 36 年 代 发 端 。 

此 ，28 世 纪 发 现 的 伟大 算法 也 许 已 经 是 唾 手 可 得 的 硕果 ， 在 未 来 帮 现 广泛 应 用 的 精 
巧 算法 将 变 得 越 来 越 困 难 。 

因此 ， 我 们 有 两 个 相互 竞争 的 效果 : 新 技术 提供 的 新 活动 ( niche ) 时 常 为 新 算 
法 提供 空间 ,而 该 领域 的 逐渐 成 熟 会 缩小 这 些 机 会 。 忌 之， 我 倾向 于 认为 这 两 种 效 
果 会 彼此 中 和 ， 让 未 来 新 的 伟大 算法 缓慢 但 稳定 地 出 现 。 


一 些 可 能 的 伟大 算法 


当然 ， 一 些 新 的 伟大 算法 会 以 完全 出 人 意料 的 方式 出 现 ， 现 在 也 不 可 能 对 未 来 
的 伟大 算法 说 些 什 么 。 但 一 些 现存 的 活动 和 技术 有 很 清晰 的 潜力 。 其 中 一 个 明显 趋 
势 是 人 工 智能 在 日 常生 活 中 的 逐渐 使 用 ( 特别 是 图 形 识别 ) ， 如 果 有 任何 令 人 震 尺 
的 崭新 算法 瑰宝 在 这 一 领域 出 现 ， 会 让 人 非常 着 迷 。 


男 一 个 潜力 非凡 的 领域 是 一 类 名 为 “ 零 知 识 协 议 ” ( zero knowledge 


protocols ) 的 算法 。 这 些 协议 使 用 一 种 特殊 的 加 密 方法 ， 以 实现 一 些 比 数字 签名 
更 令 人 惊讶 的 事情 : 它们 能 让 两 个 或 更 多 实体 将 信息 组 织 起 来 ， 而 不 用 显示 任何 单 
块 信息 。 零 知识 协议 的 潜在 用 途 之 一 是 在 线 担 卖 。 通 过 使 用 该 协议 ， 竞 担 者 能 以 加 
密 方 式 癌 彼此 提交 各 自 的 竞价 ， 从 而 判定 赢得 竞拍 的 人 ， 但 任何 其 他 竞价 的 信息 都 
不 会 向 任何 人 展示 ! 如 果 零 知识 在 现实 中 运用 的 话 ， 这 样 一 个 聪明 的 想法 肯定 会 轻 
易 满足 我 的 伟大 算法 行列 标准 。 但 目前 为 止 ， 它 们 还 未 被 广泛 使 用 。 


男 一 种 获得 众多 学 术 研 究 但 实际 应 用 有 限 的 思想 是 一 种 名 为 “分 布 式 哈 希 
表 ” ( distributed hash table ) 的 技术 。 这 些 表 是 一 种 在 点 对 点 系 统 中 一 一 一 
个 没有 中 央 服 务 器 引导 信息 流 的 系统 一 一 存储 信息 的 精巧 方法 。 然 而 ， 在 写作 本 书 
时 ， 许多 号 称 点 对 点 的 系统 实际 上 仍 在 一 些 功能 上 使 用 中 央 处 理 器 ， 因 此 无 需 依赖 
分 布 式 哈 希 表 。 


“拜占庭 容错 ” ( Byzantine fault tolerance ) 技术 也 属于 这 一 类 : 这 是 一 
种 令 人 惊讶 但 美丽 的 算法 ， 不 过 仍然 不 能 算 作 伟大 ， 因 为 没什么 人 采用 。 和 拜占庭 容 
错 允 许 特 定 计 算 机 系统 耐 受 任何 种 类 的 错误 ( 只 要 同时 不 出 现 太 多 错误 ) 。 这 与 平 
常 的 容错 概念 一 一 系统 能 幸免 的 错误 更 轻微 ， 如 磁盘 驱动 器 永久 失效 或 操作 系统 月 
省 一 一 相反 。 








伟大 算法 会 消逝 吗 ? 


除了 推测 什么 算法 会 在 未 来 步 入 伟大 行列 之 外 ， 我 们 也 许 还 会 想 ， 目 前 的 “ 伟 
大 ”算法 中 一 一 我 们 想 都 不 想 经 常用 到 的 不 可 取代 的 工具 一 一 是 否 有 一 些 会 逐渐 形 
失 其 重要 性 。 历 史 在 这 里 也 能 指引 我 们 。 如 果 我 们 将 注意 力 限制 在 特定 算法 上 ， 算 
法 上 朋 定 会 丧失 重要 性 。 最 明显 的 例子 在 密码 学 中 ; 在 友 明 新 加 密 算法 的 研究 人 员 和 


发 明 破解 这 些 算 法 安全 性 的 研究 人 员 之 间 ， 进 行 着 一 场 不 间断 的 军备 竞赛 。 作 为 一 
个 特例 ， 思考 一 下 所 谓 的 加 密 哈 希 函数 。 名 为 MD5 的 哈 希 消 数 是 一 个 官方 互联 网 标 
准 ， 自 28 世纪 96 年 代 开始 广泛 使 用 ， 然 而 目 此 以 后 MD5 的 重大 安全 缺陷 被 不 断 友 
现 ， 人 们 不 再 推荐 使 用 MD5。 类 似 的 ， 我 们 在 第 九 章 讨论 过 这 一 事实 : 如 果 搭建 一 个 
合理 体积 的 量子 计算 机 成 为 可 能 ，RSA 数 字 签 名 机 制 将 轻易 被 攻破 。 


然而 ， 我 认为 用 这 样 的 例子 来 回答 我 们 的 问题 太 片 面 。 的 确 ，MD5 有 缺陷 ( 顺便 
说 一 下 ， 其 主要 继承 者 SHA-1 也 是 ) ， 但 这 并 不 意味 着 加 密 哈 希 消 数 的 中 心思 想 束 无 
天 紧要 了 。 的 确 ， 这 类 哈 希 函数 运用 得 非常 广泛 ， 也 还 有 许多 未 被 破解 的 算法 。 
此 ， 我 们 用 足够 宽广 的 视角 看 待 这 一 情况 ， 并 准备 好 在 获 取 算 法 主要 思想 时 适应 算 
法 特例 ， 现 今 许多 伟大 算法 似乎 不 大 可 能 在 未 来 丧失 其 重要 性 。 


我 们 学 到 了 什么 ? 


能 从 本 书展 示 的 伟大 算法 中 得 出 什么 通用 主题 吗 ? 其 中 一 个 主题 是 ， 所 有 大 思 
想 都 能 在 不 需要 任何 计算 机 编程 或 其 他 计算 机 科学 知识 的 情况 下 得 到 和 解释。 作为 本 
书 作 者 ， 我 感到 很 惊讶 。 当 我 开始 帮手 这 本 书 时 ， 我 以 为 能 将 这 些 伟 大 算法 分 成 两 
类 。 第 一 类 是 一 些 核心 思想 中 运用 了 入 单 但 聪明 的 把 戏 的 算法 一 一 这 些 把 戏 无 须 任 
何 技术 性 知识 束 能 得 到 解释 。 第 二 类 算法 与 高 等 计算 机 科学 思想 联系 紧密 ， 不 能 向 
没有 该 领域 背景 知识 的 读者 解释 。 我 原 计 划 通 过 讲 些 第 二 类 算法 ( 可 能 ) 有 趣 的 历 
史 轶 事 来 涵 善 一 些 这 类 算法 ， 解 释 它 们 的 重要 应 用 ， 并 言 之 首 羡 地 称 这 些 算法 非 负 
精 15， 即 便 我 不 能 解释 它们 如 何 运行 。 当 我 友 现 自己 选择 的 所 有 算法 都 归属 为 第 一 
类 时 ， 想 想 我 有 多 高 兴 、 多 惊讶 ! 当然 ， 我 省 略 了 许多 重要 的 技术 细节 ， 但 人 在 每 个 
例子 中 ， 让 整 件 事 奏 效 的 关键 机 制 可 以 通过 使 用 非 专业 性 概念 解释 。 





本 书 所 有 算法 的 另外 一 个 重要 的 通用 主题 是 ， 计 算 机 科学 领域 并 不 仅仅 是 编 
程 。 每 当 我 教授 一 门 入 门 计算 机 科学 谋 程 ， 我 都 会 要 求学 生 告诉 我 ， 他 们 认为 计算 
机 科学 究竟 是 什么 。 到 目前 为 止 ， 最 常见 的 回答 是 “编程 ”， 或 类 似 的 “软件 工 
程 ”。 当 我 继续 要 求 他 们 说 出 计算 机 科学 的 其 他 方面 时 ， 许 多 学 生 航 难 住 。 但 接 下 
来 回答 的 学 生 通 常会 说 些 和 硬件 有 关 的 东西 ,如 “硬件 设计 ”。 这 是 对 计算 机 科学 
家 真正 从 事 的 工作 的 一 种 流行 误解 的 强力 证 据 。 读 过 这 本 书后 ， 我 希望 你 能 对 计算 
机 科学 家 思考 的 问题 ， 他 们 提出 的 解决 方案 有 更 具体 的 了 解 。 


在 这 里 举 个 简单 类 比 会 很 有 帮助 。 假 设 你 遇 到 了 一 位 主要 研究 兴趣 是 日 本 文学 
的 教授 。 极 有 可 能 这 位 教授 能 说 、 读 以 及 写 日 文 。 但 如 果 你 被 要 求 猜 测 这 位 教授 在 
进行 研究 时 在 什么 上 化 了 最 多 时 间 进 行 思考 ， 你 不 会 猜 是 “日 本 语言 ”。 尽 管 ， 日 
本 语言 是 研究 组 成 日 本 文学 的 主题 、 文 化 和 历史 的 必要 知识 。 另 一 方面 ， 说 一 口 完 
美 日 语 的 人 也 许 完全 无 视 日 本 文学 ( 日 本 可 能 有 数 百 万 这 样 的 人 ) 。 


计算 机 编程 语言 和 计算 机 科学 主要 思想 之 间 的 关系 与 上 面 的 情况 很 相似 。 要 应 
用 并 实验 算法 ， 计 算 机 科学 研究 者 需要 将 算法 转换 成 计算 机 程序 ， 而 每 个 程序 都 由 
Java、C++ 或 Python 等 编程 语言 编写 。 因 此 ， 编 程 知 识 是 计算 机 科学 家 所 必需 的 ， 
但 却 只 是 前 提 : 在 见识 了 本 书 中 的 伟大 算法 以 后 ， 我 希望 读者 们 能 对 这 一 区 别 有 更 


清楚 的 理解 。 


旅程 终点 


我 们 已 经 抵达 深奥 但 也 日 常 的 计算 世界 的 终点 。 我 们 实现 目 己 的 目标 了 吗 ? 你 
和 计算 设备 的 互动 会 因此 不 同 吗 ? 


下 次 当 你 访问 一 个 安全 网 站 时 ， 你 也 许 会 想 知 道 谁 为 其 可 信和 度 担保 ， 并 检查 你 
的 网 络 浏 览 器 侦 测 到 的 数字 证 书 链 ( 第 九 章 ) 。 或 者 当 你 下 次 遇 到 在 线 交易 因为 示 
知 原因 失败 时 ， 你 会 深 深 感激 ， 而 不 是 困惑 ， 因 为 你 知道 数据 库 一 致 性 会 确保 你 不 
会 为 订购 失败 的 东西 付费 ( 第 八 章 ) 。 或 者 未 来 某 天 你 会 自 娱 自 乐 地 说 : “如 果 计 
算 机 能 为 我 做 这 件 事 该 多 好 啊 ” 一 一 但 你 知道 这 不 可 能 ， 因 为 使 用 在 衣 江 发现 程序 
中 用 到 的 相同 方法 ， 你 想 让 计算 机 做 的 任务 被 证 明 不 可 判定 ( 第 十 章 ) 。 


肯定 你 能 想到 更 多 例子 ， 在 这 些 例子 中 ， 伟 大 算法 的 知识 也 许 能 改变 你 与 计 
算 机 互动 的 方式 。 然 而 ， 正 如 我 在 前 言 中 仔细 说 明 的 ， 这 并 非 本 书 的 主要 目的 。 我 
的 主要 目的 是 让 读者 有 足够 多 和 伟大 算法 有 关 的 知识 ， 让 他 们 在 一 些 日 常 计算 任务 
时 能 遐想 片刻 一 一 束 像 一 名 业余 天 文学 家 高 度 崇 敬 夜 空 一 样 。 





只 有 你 一 一 我 的 读者 一 一 知道 我 是 否 成 功 地 实现 了 这 一 目标 。 但 有 件 事 很 肯 
定 : 你 目 己 的 个 人 精灵 融 在 你 的 扎 尖 。 请 目 由 使 用 。 


有 许 


多 


看 不 见 的 东西 。 
沃尔特 . 惠 特 曼 ， 


《大 路 歌 》 ( Song of the Open Road ) 出 





致谢 


许多 朋友 、 同 事 和 家 人 阅读 了 部 分 或 所 有 和 草稿 。 他 们 是 亚 历 克 斯 ' 贝 次 、 威 尔 和 森 : 
贝尔 、 麦 区. 巴 罗斯 、 沃 尔 特 ` 克 秀 米 亚 克 、 迈 克 尔 : 艾 萨 德 、 阿 拉 斯 泰 尔 麦 考 密 克 、 
瑞 雯 ' 麦 考 密 克 、 妮 可 莱 塔 :马里 尼 - 迈 网 、 莫 兰 克 -麦克 谢 里 、 克 者 斯 汪 : 米 切 尔 、 伊 莉 
亚 ' 米 罗 诺 夫 、 温 迪 : 波 拉克 、 朱 迪 斯 波 特 、 科 顿 . 西 勒 、 海 伦 . 塔 卡 克 斯 、 库 纳 尔 . 塔 尔 
瓦 、 蒂 姆 :瓦尔 斯 、 乔 纳 森 ' 瓦 勒 、 乌 迪 . 维 德 和 奥 利 : 威 廉 姆 斯 。 这 些 读者 的 建议 极 大 
地 提升 了 书稿 的 质量 。 两 位 匿名 审阅 者 的 评论 也 让 书稿 得 到 了 很 大 提升 。 

克 里 斯 - 毕 晓 普 给 予 了 我 鼓励 和 建议 。 汤 姆 : 米 切 尔 给 予 了 我 在 第 六 草 使 用 他 的 图 
片 和 源 代码 的 授权 。 


在 螂 化 本 项 目 并 让 它 开花 结果 上 ， 本 书 编辑 维 琪 : 克 恩 和 她 在 普林斯顿 大 学 出 版 
社 的 同事 居 功 全 伟 。 


我 在 迪 金 森 学 院 数 学 与 计算 机 科学 部 门 的 同事 对 本 书 予 以 了 持久 支持 和 帮助 。 


迈克 尔 : 艾 萨 德 和 麦克 ' 巴 罗斯 癌 我 展示 了 计算 的 愉 避 和 和 美丽。 安德鲁 布 茉 区 教会 
了 我 如 何 成 为 一 名 更 好 的 科学 家 。 


我 的 妻子 克 者 斯 汀 一直 企 广 持 我 。 


我 向 以 上 所 有 人 致 以 最 深 的 谢意 。 本 书 并 我 的 爱 献 给 克 者 斯 汀 。 


[141 选 自 赵 萝 鞠 译本 。 


